Un juez federal ordeno abrir el mejor dataset de entrenamiento de IA del planeta — los abogados de Google no estan de acuerdo

Preguntale a ChatGPT o a Perplexity algo complicado — digamos, "mejor maleta de cabina para aerolíneas low-cost" — y compará la respuesta con la de Google. Google gana. No porque Gemini sea más inteligente que GPT, sino porque Google pasó 25 años registrando lo que 4.300 millones de usuarios diarios buscan, cliquean, ignoran y abandonan con rabia. Ese dataset de comportamiento — aproximadamente 8.500 millones de consultas por día, cada una etiquetada con clics, tiempo de permanencia, profundidad de scroll, señales de rebote y patrones de reformulación — aplasta a cualquier otro corpus de preferencias etiquetadas del planeta. La barra de búsqueda no es un producto. Es la herramienta de anotación más grande del mundo, y los humanos la operan gratis.

Cada laboratorio de IA que construye sistemas de retrieval o agentes se estrella contra el mismo muro: datos de preferencia. RLHF y DPO — las técnicas de entrenamiento que les enseñan a los modelos qué respuestas realmente les gustan a los humanos — son tan buenas como sus ejemplos etiquetados. OpenAI, Anthropic y Meta pueden generar preferencias sintéticas o pagar contratistas. Google simplemente abre una base de datos. Nick Turley de OpenAI declaró que su objetivo es servir el 80% del tráfico de búsqueda de ChatGPT desde su propio índice, y luego admitió que el 100% está "tan lejos y es tan incierto." Perplexity depende del índice de Bing con su 4% de participación de mercado. Neeva — fundada por un ex-SVP de Google con 77 millones de dólares de financiamiento — construyó su propio índice desde cero, quemó la plata en tres años y vendió el cadáver a Snowflake en 2023. Kagi cobra 10 dólares al mes y sigue redirigiendo consultas a APIs externas cuando su propio crawler se queda corto. El índice de búsqueda mínimo viable cuesta más de 500 millones de dólares para construir y decenas de millones anuales para mantener. La capa de preferencias encima — saber qué resultado es bueno — cuesta veinticinco años de monopolio.

Así que un juez federal accidentalmente creó el dataset de entrenamiento de IA más valioso del planeta, y los abogados de Google están marcando números a toda velocidad para asegurarse de que nadie lo toque.

El 14 de abril de 2026, el juez Amit Mehta emitió formalmente las medidas antimonopolio tras dictaminar que Google mantuvo ilegalmente un monopolio de búsqueda. La orden prohíbe los acuerdos de exclusividad por defecto (adiós, apretón de manos de 19 mil millones de dólares anuales con Apple) durante seis años y obliga a Google a entregar una instantánea de su índice de búsqueda más datos de interacción de usuarios — consultas, clics, tiempos de hover, duración de permanencia — a competidores calificados al menos dos veces en cinco años. El tribunal redactó el fallo para arreglar la competencia en búsqueda. Cayó de lleno en la era de los datos de preferencia para IA.

Esto es lo que esos datos de interacción realmente son en términos de machine learning: miles de millones de etiquetas implícitas de preferencia humana. El usuario buscó X. Hizo clic en el resultado B. Se quedó 4 minutos. Volvió atrás. Hizo clic en el resultado D. Se quedó 12 segundos. Rebotó a una consulta reformulada. Esa secuencia es una señal de entrenamiento — exactamente el formato que alimentarías a un pipeline de Direct Preference Optimization o usarías para hacer fine-tuning de un reward model para RLHF. Google ejecuta esto con 8.500 millones de ejemplos por día. Para que te des una idea, el dataset de preferencias público más grande conocido (Anthropic's HH-RLHF) contiene cerca de 170.000 comparaciones. Google genera ese volumen cada dos segundos.

Un pipeline RAG entrenado con estos datos no solo recuperaría documentos — aprendería qué documentos confían los humanos para qué tipos de consulta, a qué nivel de lectura, con qué requisitos de frescura. Esa es la diferencia entre "aquí hay diez enlaces" y "aquí está la respuesta que realmente vas a aceptar." Es calidad de retrieval a un nivel que ningún laboratorio de IA puede igualar actualmente sin pasar por la infraestructura de Google.

Google presentó su apelación el 16 de enero de 2026, calificando el intercambio de datos como "daño irreparable." El Circuito de D.C. probablemente no escuchará los argumentos orales hasta finales de 2026, con una decisión alrededor de mediados de 2027. Incluso si la orden sobrevive, un Comité Técnico decide quién califica como "competidor" — y si eso incluye a Perplexity y OpenAI o solo a DuckDuckGo. Mientras tanto, Google ya está convirtiendo su monopolio de búsqueda en distribución de IA: el 12 de enero, Apple acordó pagarle a Google aproximadamente mil millones de dólares anuales para integrar Gemini en Siri. El monopolio no se está disolviendo — está mutando.

Los logs de consultas sin los algoritmos de ranking de Google son una cocina sin recetas: ingredientes útiles, no un restaurante. Pero para los laboratorios de IA, los ingredientes importan más de lo que Google quiere admitir. No necesitás PageRank si estás entrenando un modelo de preferencias. Necesitás la señal humana — qué eligieron, cuánto tiempo se quedaron, si volvieron. Eso es exactamente lo que el tribunal ordenó compartir.

Toda la industria enmarcó el fallo de Mehta como una historia de antitrust en búsqueda. Es una historia de datos de preferencia para IA — del tipo que determina si la búsqueda de OpenAI se queda como un reskin de Bing o se convierte en un competidor real, si Perplexity puede entrenar modelos de retrieval que igualen la calidad de Google, si algún framework de agentes puede fundamentar sus respuestas en señales de relevancia validadas por humanos a escala de miles de millones de consultas. El foso que Google llenó durante 25 años acaba de recibir una bomba de extracción ordenada por un tribunal. Si se enciende o no depende de jueces de apelación que probablemente no pueden explicar qué significa DPO. El tribunal sentó el precedente: los datos de comportamiento acumulados mediante poder monopólico podrían no seguir siendo datos monopólicos. En la era de la IA entrenada con preferencias, eso no es una nota al pie antimonopolio — es todo el juego.

Un juez federal ordeno abrir el mejor dataset de entrenamiento de IA del planeta — los abogados de Google no estan de acuerdo

Keep reading

El imperio de IA de Google corre sobre vias monopolicas y un juez acaba de señalar la pista

Google le Dio 100 APIs a Tu Agente de IA. Gemini No las Necesita

El dialogo de permisos de tu agente es un placebo

MCP funciona en todos lados — hasta que intentas autenticarte