Los algoritmos de Google al descubierto: Cómo funciona el motor de búsqueda según documentos filtrados | byNatzir Turrado

En este artículo, profundizamos en el funcionamiento interno de Google, una herramienta que todos usamos a diario pero pocos comprenden realmente. Tras la reciente filtración de documentos en una demanda por prácticas antimonopolio contra Google, tenemos una oportunidad única para explorar los algoritmos de Google. Algunos de estos algoritmos ya eran conocidos, pero lo interesante es la información interna que nunca se había compartido con nosotros.

Examinaremos cómo estas tecnologías procesan nuestras búsquedas y determinan los resultados que vemos. En este análisis, mi objetivo es proporcionar una visión clara y detallada de los complejos sistemas detrás de cada búsqueda en Google.

Además, intentaré representar la arquitectura de Google en un diagrama, teniendo en cuenta los nuevos descubrimientos.

Primero, nos enfocaremos en extraer todos los algoritmos mencionados en 2 documentos. El primero trata sobre el testimonio de Pandu Nayak (VP de Alphabet) y el segundo trata sobre el testimonio de refutación del Profesor Douglas W. Oard, con respecto a las opiniones ofrecidas por el experto de Google, el Prof. Edward A. Fox, en su informe fechado el 3 de junio de 2022. Este último documento debatió el famoso y controvertido «Informe Fox», donde Google manipuló datos experimentales para tratar de demostrar que los datos de usuario no son tan importantes para ellos.

Intentaré explicar cada algoritmo basándome en la información oficial, si está disponible, y luego colocar la información extraída del ensayo en una imagen.

Navboost

Es clave para Google y uno de los factores más importantes. Esto también salió a la luz en la filtración de «Project Veritas» de 2019 porque Paul Haar lo añadió a su CV

Navboost recopila datos sobre cómo interactúan los usuarios con los resultados de búsqueda, específicamente a través de sus clics en diferentes consultas. Este sistema tabula los clics y utiliza algoritmos que aprenden de las calificaciones de calidad hechas por humanos para mejorar la clasificación de los resultados. La idea es que si un resultado es elegido con frecuencia (y calificado positivamente) para una consulta específica, probablemente debería tener una clasificación más alta. Curiosamente, Google experimentó hace muchos años con eliminar Navboost y encontró que los resultados empeoraron.

navboost

RankBrain

Lanzado en 2015, RankBrain es un sistema de inteligencia artificial y aprendizaje automático de Google, esencial en el procesamiento de los resultados de búsqueda. A través del aprendizaje automático, mejora continuamente su capacidad para entender el lenguaje y las intenciones detrás de las búsquedas, y es particularmente efectivo en la interpretación de consultas ambiguas o complejas. Se dice que se ha convertido en el tercer factor más importante en el ranking de Google, después del contenido y los enlaces. Utiliza una Unidad de Procesamiento Tensorial (TPU) para mejorar significativamente su capacidad de procesamiento y eficiencia energética.

rankbrain

Deduzco que QBST y Ponderación de Términos son componentes de RankBrain. Por lo tanto, los incluyo aquí.

QBST (Query Based Salient Terms) se centra en los términos más importantes dentro de una consulta y documentos relacionados, utilizando esta información para influir en cómo se clasifican los resultados. Esto significa que el motor de búsqueda puede reconocer rápidamente los aspectos más importantes de la consulta de un usuario y priorizar los resultados relevantes. Por ejemplo, esto es particularmente útil para consultas ambiguas o complejas.

En el documento de testimonio, QBST se menciona en el contexto de las limitaciones de BERT. La mención específica es que «BERT no subsume sistemas de memorización grandes como navboost, QBST, etc.» Esto significa que aunque BERT es altamente efectivo en comprender y procesar el lenguaje natural, tiene ciertas limitaciones, una de las cuales es su capacidad para manejar o reemplazar sistemas de memorización a gran escala como QBST.

QBST

Ponderación de términos ajusta la importancia relativa de los términos individuales dentro de una consulta, basándose en cómo interactúan los usuarios con los resultados de búsqueda. Esto ayuda a determinar la relevancia de ciertos términos en el contexto de la consulta. Esta ponderación también maneja eficientemente los términos que son muy comunes o muy raros en la base de datos del motor de búsqueda, equilibrando así los resultados.

Term Weighting

DeepRank

Va un paso más allá en la comprensión del lenguaje natural, lo que permite al motor de búsqueda entender mejor la intención y el contexto de las consultas. Esto se logra gracias a BERT; de hecho, DeepRank es el nombre interno de BERT. Al preentrenarse con una gran cantidad de datos de documentos y ajustarse con retroalimentación de clics y valoraciones humanas, DeepRank puede ajustar los resultados de búsqueda para que sean más intuitivos y relevantes para lo que los usuarios están buscando en realidad.

DeepRank-BERT

RankEmbed

RankEmbed probablemente se centra en la tarea de incrustar características relevantes para la clasificación. Aunque no hay detalles específicos sobre su función y capacidades en los documentos, podemos inferir que se trata de un sistema de aprendizaje profundo diseñado para mejorar el proceso de clasificación de búsqueda de Google.

RankEmbed-BERT

RankEmbed-BERT es una versión mejorada de RankEmbed, que integra el algoritmo y la estructura de BERT. Esta integración se llevó a cabo para mejorar significativamente las capacidades de comprensión del lenguaje de RankEmbed. Su efectividad puede disminuir si no se vuelve a entrenar con datos recientes. Para su entrenamiento, solo utiliza una pequeña fracción del tráfico, lo que indica que no es necesario utilizar todos los datos disponibles.

RankEmbed-BERT contribuye, junto con otros modelos de aprendizaje profundo como RankBrain y DeepRank, al puntaje de clasificación final en el sistema de búsqueda de Google, pero operaría después de la recuperación inicial de resultados (reclasificación). Está entrenado con datos de clics y consultas, y ajustado finamente utilizando datos de evaluadores humanos (IS), y es más costoso computacionalmente de entrenar que los modelos feedforward como RankBrain.

RankEmbed-BERT

MUM

Es aproximadamente 1,000 veces más poderoso que BERT y representa un avance importante en la búsqueda de Google. Lanzado en junio de 2021, no solo comprende 75 idiomas, sino que también es multimodal, lo que significa que puede interpretar y procesar información en diferentes formatos. Esta capacidad multimodal permite que MUM ofrezca respuestas más completas y contextuales, reduciendo la necesidad de realizar múltiples búsquedas para obtener información detallada. Sin embargo, su uso es muy selectivo debido a su alta demanda computacional.

Google-MUM

Tangram y Pegamento

Todos estos sistemas trabajan juntos dentro del marco de Tangram, que es responsable de ensamblar la SERP con datos de Glue. Esto no se trata solo de clasificar resultados, sino de organizarlos de una manera que sea útil y accesible para los usuarios, considerando elementos como carruseles de imágenes, respuestas directas y otros elementos no textuales.

Google Tangram/Tetris - Google Glue

Finalmente, Freshness Node y Instant Glue garantizan que los resultados sean actuales, otorgando más peso a la información reciente, lo cual es especialmente crucial en búsquedas sobre noticias o eventos actuales.

Google Tangram Freshness Node and Instant Glue

En el juicio, hacen referencia al ataque en Niza, donde el principal objetivo de la consulta cambió el día del ataque, lo que llevó a Instant Glue a suprimir imágenes generales a Tangram y en su lugar promover noticias relevantes y fotografías de Niza («nice pictures» vs «Nice pictures»):

Con todo esto, Google combinaría estos algoritmos para:

Comprender la consulta: Descifrar la intención detrás de las palabras y frases que los usuarios ingresan en la barra de búsqueda.
Determinar relevancia: Clasificar los resultados según la coincidencia con la consulta, utilizando señales de interacciones pasadas y calificaciones de calidad.
Priorizar frescura: Asegurarse de que la información más reciente y relevante ascienda en los rankings cuando sea importante hacerlo.
Personalizar resultados: Adaptar los resultados de búsqueda no solo a la consulta, sino también al contexto del usuario, como su ubicación y el dispositivo que están utilizando. Difícilmente hay más personalización que esta aquí.

De todo lo que hemos visto hasta ahora, creo que Tangram, Glue y RankEmbed-BERT son los únicos elementos novedosos filtrados hasta la fecha.

Como hemos visto, estos algoritmos se nutren de varias métricas que ahora desglosaremos, una vez más, extrayendo información del ensayo.

Métricas utilizadas por Google para evaluar la calidad de búsqueda

En esta sección, nos enfocaremos nuevamente en el Testimonio de Refutación del Profesor Douglas W. Oard e incluiremos información de una filtración anterior, la de «Project Veritas».

En una de las diapositivas, se mostró que Google utiliza las siguientes métricas para desarrollar y ajustar los factores que su algoritmo considera al clasificar los resultados de búsqueda y para monitorear cómo los cambios en su algoritmo afectan la calidad de los resultados de búsqueda. El objetivo es tratar de capturar la intención del usuario con ellas.

1. Puntuación IS

Los evaluadores humanos desempeñan un papel crucial en el desarrollo y perfeccionamiento de los productos de búsqueda de Google. A través de su trabajo, se genera la métrica conocida como «puntuación de SI» (puntuación de Satisfacción de la Información que va de 0 a 100), derivada de las calificaciones de los evaluadores y utilizada como indicador principal de calidad en Google.

Se evalúa de forma anónima, donde los evaluadores no saben si están probando Google o Bing, y se utiliza para comparar el rendimiento de Google con su principal competidor.

Estas puntuaciones de IS no solo reflejan la calidad percibida, sino que también se utilizan para entrenar varios modelos dentro del sistema de búsqueda de Google, incluidos algoritmos de clasificación como RankBrain y RankEmbed BERT.

Según los documentos, hasta 2021, están utilizando IS4. IS4 se considera una aproximación de utilidad para el usuario y debe tratarse como tal. Se describe como posiblemente la métrica de clasificación más importante, aunque enfatizan que es una aproximación y propensa a errores que discutiremos más adelante.

Una derivada de esta métrica, el IS4@5, también se menciona.

El métrico IS4@5 es utilizado por Google para medir la calidad de los resultados de búsqueda, centrándose específicamente en las primeras cinco posiciones. Este métrico incluye tanto características especiales de búsqueda, como OneBoxes (conocidos como «enlaces azules»). Existe una variante de este métrico, llamada IS4@5 web, que se enfoca exclusivamente en evaluar los primeros cinco resultados web, excluyendo otros elementos como publicidad en los resultados de búsqueda.

Aunque IS4@5 es útil para evaluar rápidamente la calidad y relevancia de los principales resultados de una búsqueda, su alcance es limitado. No abarca todos los aspectos de la calidad de la búsqueda, omitiendo en particular elementos como la publicidad en los resultados. Por lo tanto, la métrica proporciona una visión parcial de la calidad de la búsqueda. Para una evaluación completa y precisa de la calidad de los resultados de búsqueda de Google, es necesario considerar una gama más amplia de métricas y factores, similar a cómo se evalúa la salud general a través de una variedad de indicadores y no solo por el peso.

Limitaciones de los evaluadores humanos

Los evaluadores se enfrentan a varios problemas, como comprender consultas técnicas o juzgar la popularidad de productos o interpretaciones de consultas. Además, modelos de lenguaje como MUM pueden llegar a comprender el lenguaje y el conocimiento global de manera similar a los evaluadores humanos, lo que plantea tanto oportunidades como desafíos para el futuro de la evaluación de relevancia.

A pesar de su importancia, su perspectiva difiere significativamente de la de los usuarios reales. Los evaluadores pueden carecer de conocimientos específicos o experiencias previas que los usuarios puedan tener en relación con un tema de consulta, lo que podría influir en su evaluación de la relevancia y la calidad de los resultados de búsqueda.

A partir de documentos filtrados de 2018 y 2021, pude compilar una lista de todos los errores que Google reconoce que tienen en sus presentaciones internas.

Desajustes temporales: Las discrepancias pueden ocurrir porque las consultas, evaluaciones y documentos pueden ser de diferentes momentos, lo que lleva a evaluaciones que no reflejan con precisión la relevancia actual de los documentos.
Reutilización de evaluaciones: La práctica de reutilizar evaluaciones para evaluar rápidamente y controlar costos puede resultar en evaluaciones que no son representativas de la frescura o relevancia actual del contenido.
Comprensión de consultas técnicas: Los evaluadores pueden no entender las consultas técnicas, lo que dificulta evaluar la relevancia de temas especializados o de nicho.
Evaluación de popularidad: Existe una dificultad inherente para los evaluadores al juzgar la popularidad entre interpretaciones de consultas competitivas o productos rivales, lo que podría afectar la precisión de sus evaluaciones.
Diversidad de evaluadores: La falta de diversidad entre los evaluadores en algunas ubicaciones, y el hecho de que todos sean adultos, no refleja la diversidad de la base de usuarios de Google, que incluye a menores de edad.
Contenido generado por el usuario: Los evaluadores tienden a ser críticos con el contenido generado por el usuario, lo que puede llevar a subestimar su valor y relevancia, a pesar de que es útil y relevante.
Entrenamiento del nodo de frescura: Señalan un problema con el ajuste de los modelos de frescura debido a la falta de etiquetas de entrenamiento adecuadas. A menudo, los evaluadores humanos no prestan suficiente atención al aspecto de frescura de la relevancia o carecen del contexto temporal para la consulta. Esto resulta en subvalorar los resultados recientes para consultas que buscan novedad. El Tangram Utility existente, basado en IS y utilizado para entrenar curvas de relevancia y otros puntajes, sufrió del mismo problema. Debido a la limitación de etiquetas humanas, las curvas de puntaje del nodo de frescura fueron ajustadas manualmente tras su primer lanzamiento.

Sinceramente creo que los evaluadores humanos han sido responsables del funcionamiento efectivo del «Parasite SEO», algo que finalmente ha llamado la atención de Danny Sullivan y se comparte en este tuit:

Si observamos los cambios en las últimas pautas de calidad, podemos ver cómo finalmente han ajustado la definición de las métricas de Necesidades Satisfechas y han incluido un nuevo ejemplo para que los evaluadores lo consideren, incluso si un resultado es autoritario, si no contiene la información que el usuario está buscando, no debería ser calificado como altamente.

El nuevo lanzamiento de Google Notes, creo, también apunta a esta razón. Google es incapaz de saber con un 100% de certeza qué constituye contenido de calidad.

google-notes

Creo que estos eventos que estoy discutiendo, que han ocurrido casi simultáneamente, no son una coincidencia y que pronto veremos cambios.

2. PQ (Calidad de la página)

Aquí deduzco que están hablando sobre la Calidad de la Página, así que esta es mi interpretación. Si es así, no hay nada en los documentos del juicio más allá de su mención como una métrica utilizada. Lo único oficial que tengo que menciona PQ es de Directrices para evaluadores de calidad de búsqueda, que cambian con el tiempo. Por lo tanto, sería otra tarea para los evaluadores humanos.

Esta información también se envía a los algoritmos para crear modelos. Aquí podemos ver una propuesta de esto filtrada en el «Project Veritas»:

Un punto interesante aquí, según los documentos, los evaluadores de calidad solo evalúan páginas en dispositivos móviles.

3. Lado a lado

Esto probablemente se refiere a pruebas en las que se colocan dos conjuntos de resultados de búsqueda uno al lado del otro para que los evaluadores puedan comparar su calidad relativa. Esto ayuda a determinar qué conjunto de resultados es más relevante o útil para una determinada consulta de búsqueda. Si es así, recuerdo que Google tenía su propia herramienta descargable para esto, el sxse.

La herramienta permite a los usuarios votar por el conjunto de resultados de búsqueda que prefieren, proporcionando así comentarios directos sobre la eficacia de diferentes ajustes o versiones de los sistemas de búsqueda.

4. Experimentos en vivo

La información oficial publicada en Cómo funciona la búsqueda dice que Google realiza experimentos con tráfico real para probar cómo interactúan las personas con una nueva función antes de implementarla para todos. Activan la función para un pequeño porcentaje de usuarios y comparan su comportamiento con un grupo de control que no tiene la función. Las métricas detalladas sobre la interacción del usuario con los resultados de búsqueda incluyen:

Clics en los resultados
Número de búsquedas realizadas
Abandono de consulta
Cuánto tiempo tomó para que las personas hicieran clic en un resultado

Estos datos ayudan a medir si la interacción con la nueva función es positiva y aseguran que los cambios aumenten la relevancia y utilidad de los resultados de búsqueda.

Pero los documentos del juicio destacan solo dos métricas:

Clics largos ponderados por posición: Esta métrica consideraría la duración de los clics y su posición en la página de resultados, reflejando la satisfacción del usuario con los resultados que encuentran.
Atención: Esto podría implicar medir el tiempo que se pasa en la página, dando una idea de cuánto tiempo los usuarios interactúan con los resultados y su contenido.

Además, en el testimonio de Pandu Nayak, se explica que realizan numerosas pruebas de algoritmos utilizando el entrelazado en lugar de pruebas A/B tradicionales. Esto les permite realizar experimentos rápidos y fiables, lo que les permite interpretar las fluctuaciones en las clasificaciones.

5. Frescura

La frescura es un aspecto crucial tanto de los resultados como de las funciones de búsqueda. Es esencial mostrar información relevante tan pronto como esté disponible y dejar de mostrar contenido cuando se vuelva obsoleto.

Para que los algoritmos de clasificación muestren documentos recientes en la SERP, los sistemas de indexación y servidores deben poder descubrir, indexar y servir documentos recientes con una latencia muy baja. Aunque idealmente, todo el índice estaría lo más actualizado posible, existen limitaciones técnicas y de costos que impiden indexar cada documento con baja latencia. El sistema de indexación prioriza documentos en rutas separadas, ofreciendo diferentes compensaciones entre latencia, costo y calidad.

Existe el riesgo de que el contenido muy fresco tenga su relevancia subestimada y, por el contrario, que el contenido con mucha evidencia de relevancia se vuelva menos relevante debido a un cambio en el significado de la consulta.

El papel del Nodo de Frescura es agregar correcciones a las puntuaciones desactualizadas. Para consultas que buscan contenido fresco, promueve contenido fresco y degrada contenido desactualizado.

No hace mucho tiempo, se filtró que Google Caffeine ya no existe (también conocido como el sistema de indexación basado en Percolator). Aunque internamente todavía se utiliza el nombre antiguo, lo que existe ahora es en realidad un sistema completamente nuevo. El nuevo «café» es en realidad un conjunto de microservicios que se comunican entre sí. Esto implica que diferentes partes del sistema de indexación operan como servicios independientes pero interconectados, cada uno realizando una función específica. Esta estructura puede ofrecer una mayor flexibilidad, escalabilidad y facilidad para realizar actualizaciones y mejoras.

Según mi interpretación, parte de estos microservicios serían Tangram y Glue, específicamente el Nodo de Frescura y el Pegamento Instantáneo. Digo esto porque en otro documento filtrado de «Project Veritas» encontré una propuesta de 2016 para crear o incorporar un «Navboost Instantáneo» como señal de frescura, así como visitas desde Chrome.

Hasta ahora, ya habían incorporado «Freshdocs-instant» (extraído de una lista de pubsub llamada freshdocs-instant-docs pubsub, donde tomaron las noticias publicadas por esos medios dentro de 1 minuto desde su publicación) y picos de búsqueda y correlaciones de generación de contenido:

Dentro de las métricas de Frescura, tenemos varias que son detectadas gracias al análisis de Ngramas Correlacionados y Términos Relevantes Correlacionados:

NGramas correlacionados: Estos son grupos de palabras que aparecen juntas en un patrón estadísticamente significativo. La correlación puede aumentar repentinamente durante un evento o tema de tendencia, lo que indica un pico. 2. Términos destacados correlacionados: Estos son términos destacados que están estrechamente asociados con un tema o evento y cuya frecuencia de ocurrencia aumenta en documentos durante un corto período, lo que sugiere un pico de interés o actividad relacionada.

Una vez detectados los picos, podrían estar siendo utilizadas las siguientes métricas de frescura:

Unigramas (RTW): Para cada documento, se utilizan el título, los textos de anclaje y los primeros 400 caracteres del texto principal. Estos se desglosan en unigramas relevantes para la detección de tendencias y se añaden al índice de Hivemind. El texto principal generalmente contiene el contenido principal del artículo, excluyendo elementos repetitivos o comunes (plantilla).
Medias horas desde el epoch (TEHH): Esta es una medida de tiempo expresada como el número de medias horas desde el inicio del tiempo Unix. Ayuda a establecer cuándo ocurrió algo con precisión de media hora.
Entidades del Grafo de Conocimiento (RTKG): Referencias a objetos en el Grafo de Conocimiento de Google, que es una base de datos de entidades reales (personas, lugares, cosas) y sus interconexiones. Ayuda a enriquecer la búsqueda con comprensión semántica y contexto.
Celdas S2 (S2): Referencias a objetos en el Grafo de Conocimiento de Google, que es una base de datos de entidades reales (personas, lugares, cosas) y sus interconexiones. Ayuda a enriquecer la búsqueda con comprensión semántica y contexto.
Puntuación de Artículo Freshbox (RTF): Estas son divisiones geométricas de la superficie terrestre utilizadas para indexar geográficamente en mapas. Facilitan la asociación del contenido web con ubicaciones geográficas precisas.
NSR del Documento (RTN): Esto podría referirse a la Relevancia de Noticias del Documento y parece ser una métrica que determina cuán relevante y confiable es un documento en relación con noticias actuales o eventos de tendencia. Esta métrica también puede ayudar a filtrar contenido de baja calidad o spam, asegurando que los documentos indexados y destacados sean de alta calidad y significativos para búsquedas en tiempo real.
Dimensiones Geográficas: Características que definen la ubicación geográfica de un evento o tema mencionado en el documento. Estas pueden incluir coordenadas, nombres de lugares o identificadores como celdas S2.

Si trabajas en medios de comunicación, esta información es clave y siempre la incluyo en mis capacitaciones para editores digitales.

La importancia de los clics

En esta sección, nos centraremos en la presentación interna de Google compartida en un correo electrónico, titulada «Predicción Unificada de Clics», la presentación «Google es Mágico», la presentación Search All Hands, un correo electrónico interno de Danny Sullivan, y los documentos filtrados de «Project Veritas».

A lo largo de este proceso, vemos la importancia fundamental de los clics para comprender el comportamiento/necesidades del usuario. En otras palabras, Google necesita nuestros datos. Curiosamente, una de las cosas sobre las que a Google se le prohibió hablar fue sobre los clics.

Antes de comenzar, es importante señalar que los principales documentos discutidos sobre los clics son anteriores a 2016, y Google ha experimentado cambios significativos desde entonces. A pesar de esta evolución, la base de su enfoque sigue siendo el análisis del comportamiento del usuario, considerándolo una señal de calidad. ¿Recuerdas la patente donde explican el modelo CAS?

Incorporating Clicks, Attention and Satisfaction into a Search Engine Result Page Evaluation Model - CAS MODEL

Cada búsqueda y clic proporcionado por los usuarios contribuye al aprendizaje y mejora continua de Google. Este ciclo de retroalimentación permite a Google adaptarse y «aprender» sobre las preferencias y comportamientos de búsqueda, manteniendo la ilusión de que comprende las necesidades del usuario.

Diariamente, Google analiza más de mil millones de nuevos comportamientos dentro de un sistema diseñado para ajustarse continuamente y superar las predicciones futuras basadas en datos pasados. Al menos hasta 2016, esto superaba la capacidad de los sistemas de IA en ese momento, lo que requería el trabajo manual que vimos anteriormente y también ajustes realizados por RankLab.

RankLab, entiendo, es un laboratorio que prueba diferentes pesos en señales y factores de clasificación, así como su impacto posterior. También podrían ser responsables de la herramienta interna «Twiddler» (algo que también leí hace años en «Project Veritas»), con el propósito de modificar manualmente las puntuaciones de IR de ciertos resultados, o en otras palabras, poder hacer lo siguiente:

Después de este breve interludio, continúo.

Si bien las calificaciones de los evaluadores humanos ofrecen una visión básica, los clics proporcionan un panorama mucho más detallado del comportamiento de búsqueda.

Esto revela patrones complejos y permite el aprendizaje de efectos de segundo y tercer orden.

Efectos de segundo orden reflejan patrones emergentes: si la mayoría prefiere y elige artículos detallados en lugar de listas rápidas, Google lo detecta. Con el tiempo, ajusta sus algoritmos para priorizar esos artículos más detallados en búsquedas relacionadas.
Efectos de tercer orden son cambios más amplios y a largo plazo: si las tendencias de clics favorecen guías completas, los creadores de contenido se adaptan. Comienzan a producir más artículos detallados y menos listas, cambiando así la naturaleza del contenido disponible en la web.

En los documentos analizados, se presenta un caso específico en el que la relevancia de los resultados de búsqueda se mejoró mediante el análisis de clics. Google identificó una discrepancia en la preferencia del usuario, basada en los clics, hacia algunos documentos que resultaron ser relevantes, a pesar de estar rodeados por un conjunto de 15,000 documentos considerados irrelevantes. Este descubrimiento destaca la importancia de los clics de usuario como una herramienta valiosa para discernir la relevancia oculta en grandes volúmenes de datos.

Google «entrena con el pasado para predecir el futuro» para evitar el sobreajuste. A través de evaluaciones constantes y actualización de datos, los modelos se mantienen actuales y relevantes. Un aspecto clave de esta estrategia es la personalización de la localización, asegurando que los resultados sean pertinentes para diferentes usuarios en diversas regiones.

En cuanto a la personalización, en un documento más reciente, Google afirma que es limitada y rara vez cambia las clasificaciones. También mencionan que nunca ocurre en las «Noticias principales». Las veces que se utiliza es para comprender mejor lo que se está buscando, por ejemplo, utilizando el contexto de búsquedas anteriores y también para hacer sugerencias predictivas con el autocompletado. Mencionan que podrían elevar ligeramente a un proveedor de videos que el usuario utiliza con frecuencia, pero todos verían básicamente los mismos resultados. Según ellos, la consulta es más importante que los datos del usuario.

Es importante recordar que este enfoque centrado en los clics enfrenta desafíos, especialmente con contenido nuevo o poco frecuente. Evaluar la calidad de los resultados de búsqueda es un proceso complejo que va más allá de simplemente contar clics. Aunque este artículo que escribí tiene varios años, creo que puede ayudar a profundizar en esto.

Arquitectura de Google

Siguiendo la sección anterior, esta es la imagen mental que he formado de cómo podríamos colocar todos estos elementos en un diagrama. Es muy probable que algunos componentes de la arquitectura de Google no estén en ciertos lugares o no se relacionen como tal, pero creo que es más que suficiente como aproximación.

Posible funcionamiento y arquitectura de Google. Haz clic para agrandar la imagen.

Google y Chrome: La lucha por ser el motor de búsqueda y navegador predeterminado

En esta última sección, nos enfocamos en el testimonio del testigo experto Antonio Rangel, Economista del Comportamiento y Profesor en Caltech, sobre el uso de opciones predeterminadas para influir en las decisiones de los usuarios, en la presentación interna revelada «Sobre el Valor Estratégico de la Página de Inicio Predeterminada para Google», y en declaraciones de Jim Kolotouros, VP en Google, en un correo electrónico interno.

Como Jim Kolotouros revela en comunicaciones internas, Chrome no es solo un navegador, sino una pieza clave en el rompecabezas de dominio de búsqueda de Google.

Entre los datos que recopila Google se encuentran los patrones de búsqueda, los clics en los resultados de búsqueda y las interacciones con diferentes sitios web, lo cual es crucial para perfeccionar los algoritmos de Google y mejorar la precisión de los resultados de búsqueda y la efectividad de la publicidad dirigida.

Para Antonio Rangel, la supremacía en el mercado de Chrome trasciende su popularidad. Actúa como una puerta de entrada al ecosistema de Google, influyendo en cómo los usuarios acceden a la información y a los servicios en línea. La integración de Chrome con la Búsqueda de Google, al ser el motor de búsqueda predeterminado, otorga a Google una ventaja significativa en el control del flujo de información y la publicidad digital.

A pesar de la popularidad de Google, Bing no es un motor de búsqueda inferior. Sin embargo, muchos usuarios prefieren Google debido a la conveniencia de su configuración predeterminada y los sesgos cognitivos asociados. En dispositivos móviles, los efectos de los motores de búsqueda predeterminados son más fuertes debido a la fricción involucrada en cambiarlos; se requieren hasta 12 clics para modificar el motor de búsqueda predeterminado.

Esta preferencia predeterminada también influye en las decisiones de privacidad del consumidor. La configuración de privacidad predeterminada de Google presenta una fricción significativa para aquellos que prefieren una recopilación de datos más limitada. Cambiar la opción predeterminada requiere conciencia de las alternativas disponibles, aprender los pasos necesarios para el cambio e implementarlos, lo que representa una fricción considerable. Además, los sesgos conductuales como la inercia y la aversión a la pérdida hacen que los usuarios tiendan a mantener las opciones predeterminadas de Google. Explico todo esto mejor aquí.

El testimonio de Antonio Rangel resuena directamente con las revelaciones del análisis interno de Google. El documento revela que la configuración de la página de inicio del navegador tiene un impacto significativo en la cuota de mercado de los motores de búsqueda y en el comportamiento del usuario. Específicamente, un alto porcentaje de usuarios que tienen Google como su página de inicio predeterminada realizan un 50% más de búsquedas en Google que aquellos que no lo hacen.

Esto sugiere una fuerte correlación entre la página de inicio predeterminada y la preferencia del motor de búsqueda. Además, la influencia de esta configuración varía regionalmente, siendo más pronunciada en Europa, Oriente Medio, África y América Latina, y menos en Asia-Pacífico y América del Norte. El análisis también muestra que Google es menos vulnerable a los cambios en la configuración de la página de inicio en comparación con competidores como Yahoo y MSN, que podrían sufrir pérdidas significativas si pierden esta configuración.

La configuración de la página de inicio se identifica como una herramienta estratégica clave para Google, no solo para mantener su cuota de mercado, sino también como una vulnerabilidad potencial para sus competidores. Además, destaca que la mayoría de los usuarios no eligen activamente un motor de búsqueda, sino que se inclinan hacia el acceso predeterminado proporcionado por la configuración de su página de inicio. En términos económicos, se estima un valor vitalicio incremental de aproximadamente $3 por usuario para Google cuando se establece como la página de inicio.

Conclusión

Después de explorar los algoritmos y el funcionamiento interno de Google, hemos observado el papel significativo que juegan los clics de los usuarios y los evaluadores humanos en la clasificación de los resultados de búsqueda.

Los clics, como indicadores directos de las preferencias de los usuarios, son esenciales para que Google ajuste y mejore continuamente la relevancia y precisión de sus respuestas. Aunque a veces puedan querer lo contrario cuando los números no cuadran...

Además, los evaluadores humanos contribuyen con una capa crucial de evaluación y comprensión que, incluso en la era de la inteligencia artificial, sigue siendo indispensable. Personalmente, estoy muy sorprendido en este punto, sabiendo que los evaluadores eran importantes, pero no hasta este punto.

Estas dos entradas combinadas, la retroalimentación automática a través de clics y la supervisión humana, permiten a Google no solo comprender mejor las consultas de búsqueda, sino también adaptarse a las tendencias cambiantes y las necesidades de información. A medida que la IA avanza, será interesante ver cómo Google continúa equilibrando estos elementos para mejorar y personalizar la experiencia de búsqueda en un ecosistema en constante cambio con un enfoque en la privacidad.

Por otro lado, Chrome es mucho más que un navegador; es el componente crítico de su dominio digital. Su sinergia con la Búsqueda de Google y su implementación predeterminada en muchas áreas impactan en la dinámica del mercado y en todo el entorno digital. Veremos cómo termina el juicio por prácticas anticompetitivas, pero han estado sin pagar alrededor de 10.000 millones de euros en multas por abuso de posición dominante durante más de 10 años.