Juiz federal mandou abrir o melhor dataset de treinamento de IA do planeta -- os advogados do Google discordam

Pergunte ao ChatGPT ou ao Perplexity algo cabeludo — tipo "melhor mala de mão pra companhias low cost" — e compare com o Google. O Google ganha. Não porque o Gemini é mais esperto que o GPT, mas porque o Google passou 25 anos registrando o que 4,3 bilhões de usuários diários buscam, clicam, ignoram e abandonam com raiva. Esse dataset comportamental — cerca de 8,5 bilhões de buscas por dia, cada uma marcada com cliques, tempo de permanência, profundidade de scroll, sinais de bounce e padrões de reformulação — faz qualquer outro corpus de preferência rotulado do planeta parecer planilha de feira. A barra de pesquisa não é um produto. É a maior ferramenta de anotação do mundo, e os humanos operam de graça.

Todo lab de IA que constrói sistemas de retrieval ou agentes bate na mesma parede: dados de preferência. RLHF e DPO — as técnicas de treinamento que ensinam modelos quais respostas os humanos realmente curtem — são tão bons quanto seus exemplos rotulados. OpenAI, Anthropic e Meta podem gerar preferências sintéticas ou pagar terceirizados. O Google só abre um banco de dados. Nick Turley, da OpenAI, declarou que o objetivo deles é servir 80% do tráfego de busca do ChatGPT a partir do próprio índice, e depois admitiu que 100% está "muito longe e muito incerto". O Perplexity se apoia no índice do Bing, que tem 4% de market share. A Neeva — fundada por um ex-SVP do Google com US$ 77 milhões em funding — construiu o próprio índice do zero, torrou a grana em três anos e vendeu o cadáver para a Snowflake em 2023. O Kagi cobra US$ 10/mês e ainda assim roteia queries por APIs externas quando o próprio crawler não dá conta. O índice de busca mínimo viável custa mais de US$ 500 milhões para construir e dezenas de milhões por ano para manter. A camada de preferência por cima — saber qual resultado é bom — custa vinte e cinco anos de monopólio.

Então um juiz federal acidentalmente criou o dataset de treinamento de IA mais valioso da Terra, e os advogados do Google estão discando feito loucos pra garantir que ninguém encoste nele.

Em 14 de abril de 2026, o Juiz Amit Mehta formalmente emitiu remédios antitruste depois de determinar que o Google manteve ilegalmente um monopólio de busca. A ordem proíbe acordos de exclusividade como padrão (tchau, aperto de mão de US$ 19 bilhões por ano com a Apple) por seis anos e obriga o Google a entregar um snapshot do seu índice de busca mais dados de interação do usuário — queries, cliques, tempos de hover, duração de permanência — para concorrentes qualificados pelo menos duas vezes em cinco anos. O tribunal escreveu a decisão para corrigir a concorrência de busca. Ela caiu em cheio na era de dados de preferência para IA.

Eis o que esses dados de interação realmente significam em termos de machine learning: bilhões de rótulos implícitos de preferência humana. Usuário buscou X. Clicou no resultado B. Ficou 4 minutos. Voltou. Clicou no resultado D. Ficou 12 segundos. Saiu para uma busca reformulada. Essa sequência é um sinal de treinamento — exatamente o formato que você alimentaria num pipeline de Direct Preference Optimization ou usaria pra fazer fine-tune de um reward model para RLHF. O Google roda isso a 8,5 bilhões de exemplos por dia. Pra ter noção, o maior dataset de preferência publicamente conhecido (o HH-RLHF da Anthropic) contém cerca de 170 mil comparações. O Google gera esse volume a cada dois segundos.

Um pipeline de RAG treinado com esses dados não apenas recuperaria documentos — ele aprenderia quais documentos os humanos confiam para quais tipos de query, em qual nível de leitura, com quais requisitos de atualidade. É a diferença entre "aqui estão dez links" e "aqui está a resposta que você vai realmente aceitar". É qualidade de retrieval num nível que nenhum lab de IA consegue igualar atualmente sem passar pela infraestrutura do Google.

O Google entrou com recurso em 16 de janeiro de 2026, chamando o compartilhamento de dados de "dano irreparável". O Tribunal de Apelações de D.C. provavelmente não ouvirá os argumentos orais até o final de 2026, com decisão por volta de meados de 2027. Mesmo que a ordem sobreviva, um Comitê Técnico decide quem se qualifica como "concorrente" — e se isso significa Perplexity e OpenAI ou apenas DuckDuckGo. Enquanto isso, o Google já está convertendo seu monopólio de busca em distribuição de IA: em 12 de janeiro, a Apple concordou em pagar ao Google cerca de US$ 1 bilhão por ano para embutir o Gemini na Siri. O monopólio não está se dissolvendo — está mudando de forma.

Logs de queries brutos sem os algoritmos de ranking do Google são uma cozinha sem receitas: ingredientes úteis, não um restaurante. Mas para labs de IA, os ingredientes importam mais do que o Google quer admitir. Você não precisa do PageRank se está treinando um modelo de preferência. Você precisa do sinal humano — o que escolheram, quanto tempo ficaram, se voltaram. É exatamente isso que o tribunal mandou compartilhar.

A indústria inteira enquadrou a decisão do Mehta como uma história de antitruste de busca. É uma história de dados de preferência para IA — do tipo que determina se o search da OpenAI continua sendo um reskin do Bing ou se torna um concorrente de verdade, se o Perplexity consegue treinar modelos de retrieval que igualem a qualidade do Google, se qualquer framework de agentes consegue fundamentar suas respostas em sinais de relevância validados por humanos em escala de bilhões de queries. O fosso que o Google encheu ao longo de 25 anos acabou de receber uma bomba de drenagem por ordem judicial. Se ela vai ligar depende de juízes de apelação que provavelmente não sabem explicar o que DPO significa. O tribunal estabeleceu o precedente: dados comportamentais acumulados por poder de monopólio podem não continuar sendo dados de monopólio. Na era da IA treinada por preferência, isso não é uma nota de rodapé antitruste — é o jogo inteiro.

Juiz federal mandou abrir o melhor dataset de treinamento de IA do planeta -- os advogados do Google discordam

Keep reading

O Imperio de IA do Google Roda em Trilhos de Monopolio - E um Juiz Acabou de Sinalizar a Via

Google Deu 100 APIs pro Seu Agente de IA. O Gemini Nem Precisa Delas

A Janela de Permissao do Seu Agente e Placebo

MCP Funciona Em Todo Lugar -- Ate Voce Tentar Autenticar