Google的算法揭秘:根据泄露的文件,搜索引擎是如何运作的

内容

在这篇文章中,我们深入探讨了谷歌的内部运作,这是我们每天都在使用但很少真正了解的工具。在最近一起反垄断诉讼中泄露的文件之后,我们有了一个独特的机会来探索谷歌的算法。其中一些算法已经被了解,但有趣的是这些从未与我们分享过的内部信息。

我们将研究这些技术如何处理我们的搜索,并决定我们看到的结果。在这个分析中,我旨在提供对每个谷歌搜索背后复杂系统的清晰和详细的视角。

此外,我将尝试用图表来展示谷歌的架构,考虑到最新的发现。

首先,我们将专注于提取两份文件中提到的所有算法。第一份文件是关于 Pandu Nayak 的证词(Alphabet 副总裁),第二份文件是关于 Douglas W. Oard 教授的反驳证词,针对 Google 专家 Edward A. Fox 教授在其 2022 年 6 月 3 日报告中提出的观点。后一份文件讨论了著名而具有争议的“Fox 报告”,其中 Google 操纵实验数据试图证明用户数据对他们并不那么重要。

我会尽量根据官方信息来解释每个算法,如果有的话,然后将从试验中提取的信息放入一张图片中。

导航增强

这对谷歌来说至关重要,也是最重要的因素之一。这也在2019年的《Project Veritas》泄露中提到了,因为保罗·哈尔将其添加到了他的简历中。

Navboost 收集用户与搜索结果的交互数据,特别是他们对不同查询的点击。该系统汇总点击数据,并使用从人工质量评分中学习的算法来改善结果的排名。其理念是,如果某个结果经常被选择(并且得到积极评价)用于特定查询,那么它可能应该有更高的排名。有趣的是,谷歌多年前曾尝试移除 Navboost,结果发现搜索结果变差了。

navboost

RankBrain

RankBrain 是谷歌的人工智能和机器学习系统,于2015年推出,对处理搜索结果至关重要。通过机器学习,它不断提升理解语言和搜索意图的能力,特别擅长解释模糊或复杂的查询。据说它已成为谷歌排名的第三大重要因素,仅次于内容和链接。它使用张量处理单元(TPU)显著增强了处理能力和能源效率。

rankbrain

我推断QBSTTerm Weighting是RankBrain的组成部分。因此,我在这里包括它们。

QBTS(Query Based Salient Terms)专注于查询和相关文档中最重要的术语,利用这些信息来影响结果的排名。这意味着搜索引擎可以快速识别用户查询的最重要方面,并优先考虑相关的结果。例如,这对于模糊或复杂的查询特别有用。

在证词文件中,QBST在提到BERT的局限性时被提及。具体提到的是「BERT无法取代大型记忆系统,如navboost、QBST等」。这意味着尽管BERT在理解和处理自然语言方面非常有效,但它也存在一定的局限性,其中之一就是无法处理或取代像QBST这样的大规模记忆系统。

QBST

术语加权 根据用户与搜索结果的交互方式调整查询中各个术语的相对重要性。这有助于确定在查询的上下文中某些术语的相关性。这种加权还能有效处理在搜索引擎数据库中非常常见或非常罕见的术语,从而平衡结果。

Term Weighting

DeepRank

在理解自然语言方面更进一步,使搜索引擎能够更好地理解查询的意图和上下文。这得益于 BERT;事实上,DeepRank 是 BERT 的内部名称。通过在大量文档数据上进行预训练,并根据点击和人工评分进行调整,DeepRank 可以对搜索结果进行微调,使其更直观和与用户实际搜索的内容相关。

DeepRank-BERT

RankEmbed

RankEmbed 可能专注于为排名嵌入相关特征的任务。虽然文件中没有关于其功能和能力的具体细节,但我们可以推断它是一个旨在改进谷歌搜索分类流程的深度学习系统。

RankEmbed-BERT

RankEmbed-BERT 是 RankEmbed 的增强版本,集成了 BERT 的算法和结构。此集成旨在显著提高 RankEmbed 的语言理解能力。如果不使用最新数据进行重新训练,其有效性可能会降低。在训练过程中,它只使用了一小部分流量,表明不需要使用所有可用数据。

RankEmbed-BERT 与其他深度学习模型(如RankBrain和DeepRank)一起,为谷歌搜索系统中的最终排名得分做出贡献,但会在初始检索结果后进行操作(重新排序)。它是基于点击和查询数据进行训练,并使用人类评估者(IS)的数据进行精细调整,训练成本比RankBrain等前馈模型更高。

RankEmbed-BERT

妈妈

它的性能大约比BERT强大1000倍,代表了Google搜索的重大进步。MUM于2021年6月推出,不仅能理解75种语言,而且是多模态的,意味着它可以解释和处理不同格式的信息。这种多模态能力使MUM能够提供更全面和上下文的回应,减少了获取详细信息需要进行多次搜索的需求。然而,由于其高计算需求,它的使用非常有选择性。

Google-MUM

七巧板和胶水

所有这些系统在Tangram框架内协同工作,负责从Glue获取数据并组装搜索结果页面(SERP)。这不仅涉及对结果进行排名,还要以对用户有用且易于访问的方式组织它们,考虑到诸如图像轮播、直接答案和其他非文本元素等因素。

Google Tangram/Tetris - Google Glue

最后,新鲜度节点即时粘合确保结果是最新的,更加重视最近的信息,这在搜索新闻或时事信息时尤为重要。

Google Tangram Freshness Node and Instant Glue

在审判中,他们提到了尼斯的袭击事件,查询的主要意图在袭击当天发生了变化,导致Instant Glue将一般图像抑制到Tangram,并且改为推广来自尼斯的相关新闻和照片(«nice pictures» vs «Nice pictures»):

在这一切的基础上,谷歌将结合这些算法来实现以下目标:

  • 理解查询: 解读用户在搜索栏中输入的单词和短语背后的意图。
  • 确定相关性: 根据内容与查询的匹配程度对结果进行排名,利用过去的互动和质量评级的信号。
  • 优先考虑新鲜度: 确保在需要时最新鲜和最相关的信息在排名中上升。
  • 个性化结果: 不仅根据查询,还根据用户的上下文(如位置和使用的设备)定制搜索结果。几乎没有比这更个性化的了。这里有更多个性化。

从我们迄今为止看到的一切来看,我相信TangramGlueRankEmbed-BERT是迄今为止唯一泄露的新颖项目。

正如我们所看到的,这些算法是由各种指标提供支持的,我们现在将再次对其进行详细分析,从试验中提取信息。

谷歌用于评估搜索质量的指标

在这一部分,我们将再次关注道格拉斯·W·奥尔德教授的反驳证词,并包括来自之前泄露的信息,即“项目真相”的信息。

在幻灯片中,显示谷歌使用以下指标来开发和调整其算法在排名搜索结果时考虑的因素,并监控其算法变化如何影响搜索结果的质量。目标是尝试利用这些指标捕捉用户的意图。

1. IS 评分

人工评估员在谷歌搜索产品的开发和改进中发挥着至关重要的作用。通过他们的工作,生成了被称为“IS分数”(信息满意度评分,范围从0到100)的指标,该指标是根据评估员的评分生成的,并被用作谷歌搜索质量的主要指标。

它是匿名评估的,评估者不知道他们是在测试谷歌还是必应,用于比较谷歌与其主要竞争对手的表现。

这些 IS 分数不仅反映了感知质量,还用于训练谷歌搜索系统中的各种模型,包括像 RankBrain 和 RankEmbed BERT 这样的分类算法。

根据文件,截至2021年,他们正在使用IS4。IS4被认为是用户效用的近似值,应该作为这样对待。它被描述为可能是最重要的排名指标,但他们强调这是一个近似值,容易出现我们稍后将讨论的错误。

这个指标的一个衍生指标,IS4@5,也被提到了。

IS4@5 metric 是 Google 用来衡量搜索结果质量的指标,特别关注前五个位置。该指标包括特殊的搜索功能,如 OneBoxes(也称为“蓝色链接”)。还有一个名为 IS4@5 web 的变体,专门评估前五个网页结果,排除搜索结果中的广告等其他元素。

虽然 IS4@5 用于快速评估搜索结果中的顶级结果的质量和相关性,但其范围有限。它并未涵盖搜索质量的所有方面,特别是在结果中省略了广告等元素。因此,该指标提供了搜索质量的部分视图。要对谷歌搜索结果的质量进行完整准确的评估,有必要考虑更广泛的指标和因素,类似于通过各种指标而不仅仅是体重来评估一般健康状况。

**人类评估者的局限性

评估者面临诸多问题,比如理解技术查询或判断产品的受欢迎程度或查询的解释。此外,像MUM这样的语言模型可能会像人类评估者一样理解语言和全球知识,为相关性评估的未来带来机遇和挑战。

尽管评估人员的重要性不言而喻,但他们的视角与真实用户的视角存在显著差异。评估人员可能缺乏与查询主题相关的特定知识或先前经验,这可能会影响他们对相关性和搜索结果质量的评估。

从2018年和2021年泄露的文件中,我能够整理出一份谷歌在内部演示中承认存在的所有错误的清单。

  1. 时间不匹配:由于查询、评估和文档可能来自不同时间,因此可能出现差异,导致评估不能准确反映文档当前的相关性。
  2. 重复使用评估:重复使用评估以快速评估和控制成本的做法可能导致评估不能代表当前内容的新鲜度或相关性。
  3. 理解技术查询:评估者可能不理解技术查询,导致难以评估专业或小众主题的相关性。
  4. 评估受欢迎程度:评估者在判断竞争性查询解释或竞争产品的受欢迎程度时存在困难,这可能影响其评估的准确性。
  5. 评估者的多样性:某些地区的评估者缺乏多样性,而且他们都是成年人,这并不能反映谷歌用户群体的多样性,其中包括未成年人。
  6. 用户生成内容:评估者往往对用户生成的内容很苛刻,这可能导致低估其价值和相关性,尽管它是有用且相关的。
  7. 新鲜度节点训练:由于缺乏充分的训练标签,调整新鲜度模型存在问题。人工评估者通常不够关注相关性的新鲜度方面,或者缺乏查询的时间背景。这导致对寻求新颖性的查询的最新结果进行低估。现有的基于IS的Tangram Utility用于训练相关性和其他评分曲线,也存在同样的问题。由于人工标签的限制,新鲜度节点的评分曲线在首次发布时进行了手动调整。

我真诚地相信,人类评估者一直负责有效地推动“寄生虫SEO”的运作,这终于引起了丹尼·沙利文的注意,并在这条推文中分享了这一点:

如果我们看最新的质量指南变化,我们可以看到他们最终如何调整了满足需求指标的定义,并为评估者提供了一个新的示例,即使结果是权威的,如果不包含用户正在寻找的信息,就不应该被评为高等级。

Google Notes的新推出,我相信,也指向了这个原因。谷歌无法百分之百确定什么构成优质内容。

google-notes

我相信我所讨论的这些事件几乎同时发生并非巧合,我们很快将会看到变化。

2. PQ(页面质量)

我推断他们在谈论页面质量,所以这是我的解释。如果是这样,试用文件中除了提到它作为一种使用的度量标准外,没有其他内容。我唯一拥有的官方文件提到 PQ 的是来自搜索质量评估员指南这些内容会随时间变化。因此,这将是人工评估员的另一个任务。

这些信息也被发送到算法中用于创建模型。在这里,我们可以看到这个提议在“Project Veritas”中被泄露了:

根据文件,一个有趣的观点是,质量评估员只评估移动页面

3. 并排显示

这可能是指将两组搜索结果并排放置,以便评估员可以比较它们的相对质量。这有助于确定哪组结果对于特定的搜索查询更相关或有用。如果是这样,我记得谷歌有自己的可下载工具,名为 sxse

该工具允许用户投票选择他们喜欢的搜索结果集,从而直接反馈不同调整或搜索系统版本的有效性。

4. 现场实验

官方发布的How Search Works中指出,谷歌会通过真实流量进行实验,以测试人们在新功能上的交互方式,然后再将其推广给所有人。他们会为一小部分用户激活该功能,并将其行为与没有该功能的对照组进行比较。搜索结果用户交互的详细指标包括:

  • 点击结果
  • 执行的搜索次数
  • 查询放弃
  • 人们点击结果花费的时间

这些数据有助于衡量与新功能的互动是否积极,并确保变化增加了搜索结果的相关性和实用性。

但是审判文件只突出了两个指标:

  1. 位置加权长点击: 此指标将考虑点击的持续时间和它们在结果页面上的位置,反映用户对他们找到的结果的满意度。
  2. 注意力: 这可能意味着测量在页面上花费的时间,从而了解用户与结果及其内容的互动持续多长时间。

此外,在Pandu Nayak的证词中,解释说他们进行了许多算法测试,使用交错测试而不是传统的A/B测试。这使他们能够进行快速可靠的实验,从而使他们能够解释排名的波动。

5. 新鲜度

新鲜度是搜索结果和搜索功能的关键方面。在信息可用时立即显示相关信息,并在内容过时时停止显示。

为了让排名算法在搜索引擎结果页面中显示最新的文档,索引和服务系统必须能够以非常低的延迟发现、索引和提供最新的文档。尽管理想情况下,整个索引都应尽可能更新,但由于技术和成本限制,无法以低延迟索引每个文档。索引系统会根据不同的路径对文档进行优先级排序,提供延迟、成本和质量之间的不同权衡。

存在这样的风险,即非常新鲜的内容可能被低估其相关性,反之,具有大量相关性证据的内容可能由于查询含义的变化而变得不太相关。

新鲜度节点的作用是对过时的评分进行修正。对于寻求新鲜内容的查询,它会提升新鲜内容的排名,降低过时内容的排名。

不久前,有消息称Google Caffeine已经不复存在(也被称为Percolator基于的索引系统)。尽管在内部仍然使用旧名称,但现在存在的实际上是一个全新的系统。新的「咖啡因」实际上是一组相互通信的微服务。这意味着索引系统的不同部分作为独立但相互连接的服务运行,每个服务执行特定的功能。这种结构可以提供更大的灵活性、可扩展性和便于进行更新和改进。

我理解这些微服务的一部分将是Tangram和Glue,具体来说是Freshness NodeInstant Glue。我这么说是因为在来自«Project Veritas»的另一份泄露文件中,我发现2016年有一个提案,要制作或整合一个名为«Instant Navboost»的新鲜度信号,以及Chrome访问。

到目前为止,他们已经整合了“Freshdocs-instant”(从名为freshdocs-instant-docs pubsub的pubsub列表中提取,他们在新闻发布后的1分钟内获取了这些媒体发布的新闻)以及搜索高峰和内容生成相关性:

在新鲜度指标中,我们有几个是通过相关Ngram和相关显著术语的分析来检测的:

  1. 相关NGrams:这些是以统计学显著模式一起出现的词组。相关性在事件或热门话题期间可能会突然增加,表明出现了一个高峰。
  2. 相关显著术语:这些是与一个主题或事件密切相关的突出术语,在短时间内在文档中的频率增加,表明兴趣或相关活动的高峰。

一旦检测到峰值,可以使用以下新鲜度指标:

  1. 单字词(RTW):对于每个文档,使用标题、锚文本和主文本的前400个字符。这些被分解为与趋势检测相关的单字词,并添加到Hivemind索引中。主文本通常包含文章的主要内容,不包括重复或常见元素(样板)。
  2. 自纪元以来的半小时数(TEHH):这是一个时间度量,表示自Unix时间开始以来的半小时数。它有助于以半小时精度确定事件发生的时间。
  3. 知识图谱实体(RTKG):指的是谷歌知识图谱中的对象引用,这是一个包含真实实体(人物、地点、事物)及其相互关系的数据库。它有助于通过语义理解和上下文丰富搜索结果。
  4. S2单元(S2):指的是谷歌知识图谱中的对象引用,这是一个包含真实实体(人物、地点、事物)及其相互关系的数据库。它有助于通过语义理解和上下文丰富搜索结果。
  5. Freshbox文章分数(RTF):这些是地球表面的几何分区,用于地理索引地图。它们有助于将网络内容与精确的地理位置关联起来。
  6. 文档NSR(RTN):这可能指的是文档的新闻相关性,似乎是一个确定文档与当前新闻或趋势事件相关性和可靠性的度量。该度量也有助于过滤低质量或垃圾内容,确保索引和突出显示的文档具有高质量且对实时搜索具有重要意义。
  7. 地理维度:定义文档中提及的事件或主题的地理位置特征。这些可以包括坐标、地名或标识符,如S2单元。

如果你在媒体行业工作,这些信息至关重要,我总是把它包括在我的数字编辑培训中。

点击的重要性

在整个过程中,我们看到了点击在理解用户行为/需求方面的基本重要性。换句话说,谷歌需要我们的数据。有趣的是,谷歌被禁止谈论的事情之一就是点击。

在开始之前,重要的是要注意,讨论点击的主要文件早于2016年,而自那时以来,Google已经经历了重大变化。尽管如此,他们的方法的基础仍然是分析用户行为,将其视为质量信号。你还记得他们解释CAS模型的专利吗?

Incorporating Clicks, Attention and Satisfaction into a Search Engine Result Page Evaluation Model - CAS MODEL

用户提供的每次搜索和点击都有助于谷歌的学习和持续改进。这种反馈循环使谷歌能够适应并“学习”搜索偏好和行为,保持了谷歌理解用户需求的幻觉。

每天,Google在一个旨在不断调整和超越基于过去数据的未来预测的系统中分析超过十亿个新行为。至少直到2016年,这超出了当时AI系统的容量,需要我们之前看到的手动工作,以及RankLab做出的调整。

RankLab,我了解,是一个测试不同信号和排名因素权重以及它们后续影响的实验室。他们可能还负责内部工具«Twiddler»(我几年前也从«Project Veritas»上读到过),目的是手动修改某些结果的IR分数,换句话说,能够做到以下所有事情:

经过这短暂的插曲,我继续。

虽然人类评估者的评分提供了基本视角,但点击提供了搜索行为的更详细全景。

这揭示了复杂的模式,并允许学习二阶和三阶效应。

  • 二阶效应反映出新兴的模式:如果大多数人更喜欢并选择详细的文章而不是快速列表,谷歌会察觉到。随着时间的推移,它会调整其算法,以优先考虑相关搜索中更详细的文章。
  • 三阶效应是更广泛的、长期的变化:如果点击趋势偏向全面指南,内容创作者会做出调整。他们开始生产更详细的文章,减少列表的数量,从而改变了网络上可用内容的性质。

在分析的文件中,提出了一个具体案例,说明通过点击分析改善了搜索结果的相关性。谷歌发现了用户点击行为存在偏好差异,一些文档尽管被认为周围有15,000份不相关的文档,但实际上是相关的。这一发现突显了用户点击作为在大量数据中辨别隐藏相关性的重要工具。

Google通过与过去的数据进行训练来预测未来,以避免过度拟合。通过不断评估和更新数据,模型保持当前和相关。该策略的一个关键方面是本地化个性化,确保结果对不同地区的用户具有相关性。

关于个性化,在一份较新的文件中,谷歌声称它的作用有限,很少改变排名。他们还提到它从不出现在“头条新闻”中。它的使用时机是为了更好地理解搜索内容,例如利用先前搜索的上下文,并通过自动完成功能提出预测性建议。他们提到可能会略微提升用户经常使用的视频提供商,但每个人基本上会看到相同的结果。据他们称,查询比用户数据更重要。

重要的是要记住,这种以点击为中心的方法面临着挑战,特别是对于新的或不经常出现的内容。评估搜索结果的质量是一个复杂的过程,不仅仅是计算点击次数。尽管我写的这篇文章已经有好几年了,我认为它可以帮助更深入地了解这个问题。

谷歌的架构

在上一节的基础上,这是我对我们如何将所有这些元素放入图表中形成的心理形象。很可能谷歌架构的某些组件并不在特定位置,或者并不像我所说的那样相关,但我相信这已经足够作为一个近似值。

search-engine-architecture-google-working-diagram

Google的可能功能和架构。点击以放大图片。

谷歌和Chrome:成为默认搜索引擎和浏览器的斗争

正如吉姆·科洛图罗斯在内部沟通中透露的那样,Chrome 不仅仅是一个浏览器,而且是谷歌搜索主导地位拼图中的关键部分。

Google收集的数据包括搜索模式、搜索结果的点击以及与不同网站的互动,这对于优化Google的算法、提高搜索结果的准确性和提高定向广告的效果至关重要。

对于安东尼奥·兰赫尔(Antonio Rangel)来说,Chrome的市场霸主地位超越了其流行程度。它充当了通往谷歌生态系统的门户,影响用户获取信息和在线服务的方式。作为默认搜索引擎,Chrome与谷歌搜索的整合赋予谷歌在控制信息流和数字广告方面的重大优势。

尽管谷歌很受欢迎,必应并不是一款劣质的搜索引擎。然而,许多用户更喜欢谷歌,因为其默认配置和相关认知偏见的便利性。在移动设备上,由于更改默认搜索引擎涉及的摩擦力更大,因此默认搜索引擎的影响更为显著;修改默认搜索引擎需要多达12次点击。

这种默认偏好也影响消费者的隐私决策。谷歌的默认隐私设置对于那些更倾向于限制数据收集的人来说存在相当大的阻力。更改默认选项需要意识到可用的替代方案,学习必要的更改步骤和实施,这代表了相当大的阻力。此外,像惯性和损失厌恶这样的行为偏见使用户倾向于保持谷歌的默认选项。我在这里更好地解释了这一切

安东尼奥·兰赫尔的证词直接 resonates with Google’s internal analysis revelations. 该文件显示,浏览器的主页设置对搜索引擎的市场份额和用户行为有重大影响。具体来说,将 Google 设置为默认主页的用户,其在 Google 上的搜索量比那些没有设置的用户多 50%。

这表明默认主页与搜索引擎偏好之间存在很强的相关性。此外,该设置的影响在不同地区有所不同,在欧洲、中东、非洲和拉丁美洲更为显著,在亚太地区和北美洲则较不明显。分析还显示,相比雅虎和MSN等竞争对手,谷歌对主页设置的变化不太脆弱,如果它们失去这一设置,可能会遭受重大损失。

主页设置被认为是谷歌的关键战略工具,不仅用于维持其市场份额,还可能成为竞争对手的潜在弱点。此外,它强调大多数用户并不积极选择搜索引擎,而是倾向于主页设置提供的默认访问。从经济学角度来看,当谷歌被设置为主页时,每个用户的增量终身价值约为3美元。

结论

在探索谷歌的算法和内部运作后,我们发现用户点击和人工评估者在搜索结果排名中发挥着重要作用。

点击作为用户偏好的直接指标,对于谷歌来说至关重要,可以持续调整和改进其响应的相关性和准确性。尽管有时当数字不符合时,他们可能希望相反...

此外,人类评估者提供了至关重要的评估和理解层面,即使在人工智能时代,这仍然是不可或缺的。就我个人而言,我对这一点感到非常惊讶,我知道评估者很重要,但没有想到会如此重要。

这两种输入结合在一起,通过点击自动反馈和人工监督,使谷歌不仅能更好地理解搜索查询,还能适应不断变化的趋势和信息需求。随着人工智能的进步,看到谷歌如何继续平衡这些元素,以改进和个性化搜索体验,在一个不断变化且注重隐私的生态系统中,将会很有趣。

另一方面,Chrome不仅仅是一个浏览器;它是他们数字主导地位的关键组成部分。它与谷歌搜索的协同作用以及在许多领域的默认实施影响市场动态和整个数字环境。我们将看到反垄断审判的结果,但他们已经在滥用主导地位方面被罚款约100亿欧元以上超过10年了。

总结
这篇文章深入探讨了谷歌的内部运作,包括谷歌的算法、架构和新发现。文章提到了谷歌的一些关键算法,如Navboost、RankBrain、QBST、Term Weighting、DeepRank、RankEmbed、RankEmbed-BERT、MUM等,以及它们在谷歌搜索系统中的作用。此外,文章还提到了Tangram和Glue框架,以及Freshness Node和Instant Glue对搜索结果的影响。