你的网站内容被用于AI训练了吗？（转载自Zac博客）

最近几个月不管SEO行业还是整个科技行业，最热门的话题无疑是人工智能。

说实话，过去20多年来，我一直没觉得SEO技术有什么根本变化。虽然搜索引擎们每天更新算法，SEO们探索各种技巧，新名词层出不穷，这个战法，那个黑科技……其实呢，真没什么变化，无非是：创作好的内容，让蜘蛛能抓到，让用户能正常访问，然后，就没了。

自从ChatGPT出现以后，我第一次感觉可能要有变化了。我从来没有像现在这样觉得，SEO可能会有不同的做法了。

所以，现在能引起写帖子冲动的只有AI了。

上篇讨论AI是否会消灭SEO的帖子里提到过，Google测试中的生成式AI没有给出内容出处，也就不会给其他网站带来流量，那么站长们还不得抗议？还能让Google蜘蛛来抓网站内容？我辛辛苦苦创作内容，让蜘蛛免费来抓，训练出AI，回答用户问题时没有链接，没有出处，不会给网站带来任何好处，我图什么呀？如果有那么一天，我反正直接禁止Google蜘蛛来抓了。

那么，现在你的网站内容已经被用于AI训练了吗？这个不太容易确切知道，因为生成式AI的回答不是伪原创，不是拼接，是在学习大量数据后AI自己写的原创。

Bing还好，会标出部分出处，被标的网站显然被用于训练了。Google有没有用呢？

前两天华盛顿邮报发了一篇文章：“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之类AI看起来挺聪明的网站们“。文章内嵌了一个小功能，可以查某个网站是否被Google用于AI训练，以及用的比例。

AI们训练的数据是海量的，来源也挺多，出版的书籍，各种数据库，wiki，普通网站肯定也是其中一部分。C4是Google训练AI使用的一个网站数据集，里面有一千五百万个网站。华盛顿邮报分析了每个网站出现的token次数，token越多，大致上被用于训练的数据越多。token我不确定该怎么翻译，“字符串”？反正指的是一小段文字，比如一个词或一个短语。

C4不是Google用于AI训练的所有网站，所以里面没有的网站，不一定就没被用于训练。比如查一下zhihu.com，居然一个token都没有，这不科学，我无法相信知乎的内容没有被用于训练。

已经有人用这个小工具统计出被Google用于训练的token数和占比，Google专利第一，wikipedia第二，scribd第三：