Google 能检测到 AI 内容并对其进行惩罚吗

内容

3月5日,谷歌宣布将进行一次大规模更新,旨在将无用内容减少40%。此更新始于对网站施加的一轮重大手动操作,并使其完全去索引化。这些手动操作与此更新同时进行,但与即将在2至4周内推出的算法更新是分开的。

在过去的24小时内,我们已完成了两项重要研究,以帮助人们了解这些更新,这两项研究都已包含在这里。

  • 研究1 - 2024年3月手动操作网站列表
    • 2024年3月检查的79k个网站中,有1,446个网站受到了手动操作的影响。
  • 研究2 - AI内容垃圾是否导致手动操作?
    • 100%的网站有一些帖子是由AI生成的
    • 50%的网站有90%-100%的帖子是由AI生成的

在本篇文章中,我们将涵盖…

  1. 谷歌更新概述
  2. 什么是手动操作和网站去索引
  3. 受影响网站的最完整列表
  4. 我们对受影响网站的了解

查看方法,请参见下面的每个部分。

如果您有任何问题,想要访问数据或希望扩展这项研究,请联系[email protected]

2024年3月AI内容手册行动更新概述

Google 在 3 月 5 日宣布的这个更新旨在惩罚…

  • “规模化内容滥用”
    • 旨在阻止大规模发布内容垃圾信息(在2024年及以后,谁会发布内容垃圾信息而不使用人工智能呢?)。
  • “过期域名滥用”
    • 旨在阻止人们重新利用过期域名以获取SEO收益。
  • “网站声誉滥用”
    • 旨在阻止声誉良好的网站通过发布部分网站内容的寄生SEO文章来操纵搜索引擎。一个例子是《体育画报寄生SEO》的案例。

Google 在这次更新的最初几天进行了比大多数其他类似更新更多的沟通。

**2024年3月更新内容覆盖范围:**‍

Google博客文章:

需要再次注意的是,手动操作与即将发生的算法更新并不相同。

什么是手动操作和网站去索引

如果 Google 确定某个网站不符合其准则,它可以执行“手动操作”并彻底将其从搜索结果中移除(也就是取消索引该网站)。

3月5日,各网站开始在其Google搜索控制台手动操作仪表板上收到越来越多的这些通知...

Google Shows a single issue detected in Google Search Console's Manual Action Tab

这些手动操作的后果似乎是完全从谷歌的搜索结果中移除。

Indexation checking using site operator

现在我们知道哪些受到影响的网站了…

研究1 - 2024年3月受到手动操作的网站列表

为了更好地了解这一手动操作的范围,我们进行了一项研究,以识别那些被谷歌取消索引的内容网站,这些网站直到最近仍然有谷歌有机流量。

本研究侧重于内容优先的网站,而不是电子商务或其他类型的网站。

发现:

  • 对超过1,446个位于MediaVine、Raptive或Ezoic上的网站执行了手动操作
  • 在大约79,000个网站中,有1.9%的网站受到了手动操作的影响
  • 累积流量损失估计超过每月2,000万访问者
  • 3个网站每月有超过100万有机访问者,现在为零

Manual Action Applied to 2% of websites from 1446 deindexed sites.

手动操作网站的DR:

Histogram of Ahrefs DR for sites with manual action

每月有超过100万有机访问量的3个网站归零

  • zacjohnson.com
  • beingselfish.in
  • equityatlas.org

Checking a websites traffic overview in Ahrefs Dashboard.

Ahrefs overview for beingselfish.in after taking manual action by google.

Another Ahrefs overview of traffic decreasing.

方法论:

这里是我们完成这项研究的方法。

总结:确定了一份包含79k个网站的列表,这些网站更好地反映了互联网,检查它们当前是否被索引,如果没有被索引,我们会检查2个来源(AHrefs和SImilarWeb)以验证它们最近是否有有机流量。

如果一个网站最近有有机流量(二月),但现在在谷歌中没有被索引,我们认为是3月5日更新手动操作被应用了。

  1. 我们使用BuiltWith列表创建了一个显示来自流行广告提供商广告的所有URL的列表。选择这些平台是因为它们应用了最低标准来允许网站添加到其平台,由于低质量网站数量众多,未分析AdSense网站。这个列表应该(可以说)是所有在线网站的一个比平均水平更好的代表,并且可能低估了接收手动操作的网站的百分比。以下是根据提供广告的公司检查的网站数量:1. MediaVine:21,808;2. Raptive:6,428;3. Ezoic:51,293。2. 删除了18个重复项。3. 检查每个URL,看它是否被谷歌去索引,通过在Google中搜索“Site:URL”。4. 对于每个被去索引的网站,我们使用AHrefs和SimilarWeb检查了2月份的有机流量数据。5. 我们确认我们的方法捕获了一些公开分享的网站,这些网站在这种方法中被捕获了(它们确实被捕获了)。

数据集:

如果您想访问包括ahrefs和类似网站数据在内的已去索引网站的数据集,请联系[email protected]

研究2 - AI内容垃圾信息是否导致手动操作?

许多媒体迅速得出结论,认为这次更新旨在消除谷歌搜索结果中的人工智能垃圾信息...

Wired.com publish a post on google is finally trying to kill ai clickbait

许多 SEO 从业者在 X 上都同意…

Brendan Oconnel agree with google manual action to remove ai clickbait

但是使用我们的AI Checker ,我们希望进行更严格的分析。

我们查看了已经公开分享的每个被取消索引站点的最近100篇文章,以查看受到手动惩罚的站点上人工智能内容的普遍程度。

发现:

  • 100%的网站显示出使用AI的迹象
  • 我们分析的14个网站中有7个网站的样本文章超过90%

Parentages of websites has published ai content

7 out of 14 websites had 90%+ ai generated content

Presence Of Ai Content in Websites that had a manual action

Websites list that had used a percentage ai generated content

方法论:

  1. 确定了已被去索引化的网站,并且其 URL 已经在 X 上披露了
    1. fresherslive.com
    2. qmunicatemagazine.com
    3. hnbgu.net
    4. zacjohnson.com
    5. newsunzip.com
    6. Bognor.news
    7. popularbio.com
    8. popularnetworth.com
    9. bioofy.com
    10. istaunch.com
    11. healthyceleb.com
    12. GoDownSize.com
    13. networthpost.org
    14. tvguidetime.com
    15. thesocialtalks.com
    16. juliangoldie.com
    17. chipperbird.com
    18. EquityAtlas.org
    19. filmifeed.com
  2. 抓取了最近的 100 篇文章,这些文章超过 100 个字
  3. 排除了几个网站:
    1. juliangoldie.com - 不再完全去索引化 - 10 页在索引中(但公开承认使用 AI)
    2. chipperbird.com - 无法获取内容(但网站所有者公开承认使用 AI)
    3. equityatlas.org - 无法获取内容
    4. filmifeed.com - 无法获取内容
    5. thesocialtalks.com - 无法获取内容
  4. 通过我们的 AI 检测器检测器效果)在 3 月 7 日使用 2.0 标准模型对每篇文章进行了检测
  5. 为每个网站完成了分析,以确定平均 AI 得分和疑似为 AI 生成的文章的百分比。

AI内容是否应该为谷歌将网站从索引中删除负责?

简短的回答是是的...通过分析200个网站和超过40,000个URL,我们的AI检测器清楚地表明,绝大多数收到手动操作的网站可能在使用AI内容。

在3月5日的更新中,谷歌将几乎2% 的流行广告平台上的所有网站从索引中删除,例如 MediaVine、Ezoic 和 Raptive。其中一些平台,如 MediaVine,在这些手动操作之后立即采取了积极的 No AI Content 立场。(来源)

Mediavine Policy on ai generated content

在更新时,我们分析了14个公开展示的网站,并发现它们全部都包含一定量的人工智能内容。这引发了很多讨论…

Lot's of discussion on Twitter's happening after google manual action on ai-content

但是...我们想进行更彻底的分析,比当时已经揭示的14个网站要深入得多。

方法论:

  1. 确定了200个流量最高的被去索引的网站
  2. 每个网站找到了大约200篇最新文章
  3. 使用Originality.ai AI detectorURL API检查了超过40,000个URL的AI内容。一些文本
    1. 移除了错误
    2. 移除了少于25篇文章的网站
  4. 然后我们能够分析175个网站中30,614个URL的内容

主要发现:

175个网站中有151个可能发布了人工智能内容

绝大多数被去索引的网站似乎都发布了一些人工智能内容。将人工智能阈值设定为保守的5%(在几乎所有测试数据集中,误报率<3%)。

Percentage Of Suspected Ai Articles on Deindexed Sites

175个网站中有51个是纯粹(95%以上AI生成)的AI生成内容网站

一些网站似乎采取了人工智能和人类撰写内容的混合方法,而一些网站明显只展示人工智能生成的内容。

51个网站中约30%的网站是纯人工智能生成的内容。

51 out of 175 sites had over 95% ai generated content

与被取消索引站点的其他相似之处:

  • 侵略性广告
  • 仅内容网站

但这些发现很可能是抽样偏差,因为这些网站列表是从MediaVine、Raptive和EZoic(所有这些广告网络在网络发布者中很受欢迎)中获取的。

这个 AI 内容的数量正常吗?

如果这些发现表明,如果AI内容在谷歌的其他搜索结果页面中保持一致,我们就不会责怪AI内容导致这些网站被取消索引。

我们正在进行一项研究,查看500个不同关键词的前20个搜索结果页面的内容,时间跨度超过60个月。

结论

AI 生成的垃圾邮件可能会淹没谷歌搜索结果,这对谷歌构成了一种生存威胁。这似乎是谷歌明确表明他们对 AI 生成的垃圾邮件的看法,不仅仅是惩罚,还是一种表态。

总结
谷歌于3月5日宣布进行一次大规模更新,旨在减少无用内容40%。此更新首先对网站进行了大量手动操作,将它们完全从索引中删除。这些手动操作与即将在2至4周内推出的算法更新同时进行。研究显示,在2024年3月,79,000个网站中有1,446个网站受到手动操作影响。100%的网站有一些帖子是由AI生成的,50%的网站有90%-100%的帖子是由AI生成的。更新旨在惩罚规模化内容滥用、过期域名滥用和网站声誉滥用。手动操作会导致网站完全从谷歌搜索结果中删除。研究发现,受影响的网站中有3个每月有超过100万有机访问量的网站。