你的网站内容被用于AI训练了吗?

你的网站内容被用于AI训练了吗?(转载自Zac博客)

最近几个月不管SEO行业还是整个科技行业,最热门的话题无疑是人工智能。

说实话,过去20多年来,我一直没觉得SEO技术有什么根本变化。虽然搜索引擎们每天更新算法,SEO们探索各种技巧,新名词层出不穷,这个战法,那个黑科技……其实呢,真没什么变化,无非是:创作好的内容,让蜘蛛能抓到,让用户能正常访问,然后,就没了。

自从ChatGPT出现以后,我第一次感觉可能要有变化了。我从来没有像现在这样觉得,SEO可能会有不同的做法了。

所以,现在能引起写帖子冲动的只有AI了。

上篇讨论AI是否会消灭SEO的帖子里提到过,Google测试中的生成式AI没有给出内容出处,也就不会给其他网站带来流量,那么站长们还不得抗议?还能让Google蜘蛛来抓网站内容?我辛辛苦苦创作内容,让蜘蛛免费来抓,训练出AI,回答用户问题时没有链接,没有出处,不会给网站带来任何好处,我图什么呀?如果有那么一天,我反正直接禁止Google蜘蛛来抓了。

那么,现在你的网站内容已经被用于AI训练了吗?这个不太容易确切知道,因为生成式AI的回答不是伪原创,不是拼接,是在学习大量数据后AI自己写的原创。

Bing还好,会标出部分出处,被标的网站显然被用于训练了。Google有没有用呢?

前两天华盛顿邮报发了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之类AI看起来挺聪明的网站们“。文章内嵌了一个小功能,可以查某个网站是否被Google用于AI训练,以及用的比例。

AI们训练的数据是海量的,来源也挺多,出版的书籍,各种数据库,wiki,普通网站肯定也是其中一部分。C4是Google训练AI使用的一个网站数据集,里面有一千五百万个网站。华盛顿邮报分析了每个网站出现的token次数,token越多,大致上被用于训练的数据越多。token我不确定该怎么翻译,“字符串”?反正指的是一小段文字,比如一个词或一个短语。

C4不是Google用于AI训练的所有网站,所以里面没有的网站,不一定就没被用于训练。比如查一下zhihu.com,居然一个token都没有,这不科学,我无法相信知乎的内容没有被用于训练。

已经有人用这个小工具统计出被Google用于训练的token数和占比,Google专利第一,wikipedia第二,scribd第三:

谷歌token

出于好奇和虚荣心,肯定要查一下自己博客:

昝辉博客

被用了,280个token。好吧,我也不知道是该高兴还是难过。有点欣慰是肯定的,毕竟,连联合早报都只有19个token:

昝辉博客token

但短暂的虚荣得到满足之后,接下来就会想,我真的愿意我的内容被Google用于AI训练吗 – 在得不到任何好处的情况下?

各位可以查一下自己的网站有没有被用。用了的话,你心甘情愿吗?

近期文章

Tag标签页面如何优化?(转载自Zac博客)

Tag页面很常用,用得好的话SEO效果不错。但很多网站的tag页面使用并不恰当,甚至可能会 ...

为什么你做的外链没效果?

我们前不久发布的《外链建设精算:SEO成功的关键投资策略》一文,收到了读者的反馈,表示“已 ...

怎样迁移网站服务器和域名?(转载自Zac博客)

整个网站范围的改动尽量分步进行 首先,不建议同时迁移服务器和域名。整个网站范围所做的变动, ...

深度解析:营销漏斗理论在SEO中的应用策略

营销漏斗是一种描述潜在客户在购买过程中不同阶段的模型,它可以帮助我们理解客户从认识到购买的 ...

独立站SEO的数字化工具

之前曾分享了一些外贸网络营销工具,受到了广泛好评,您可以通过以下链接查看相关内容:http ...

同一个服务器多个网站(虚拟主机)会影响SEO吗?(转载自Zac博客)

使用虚拟主机会影响SEO效果吗? 如果仅仅是“同一个服务器,多个网站“,那这个问题就相当于 ...