Un juge federal vient d'ordonner l'ouverture du meilleur dataset d'entrainement IA au monde — les avocats de Google ne sont pas d'accord

Pose une question vicieuse à ChatGPT ou Perplexity — genre « meilleur bagage cabine pour les compagnies low-cost » — et compare la réponse avec celle de Google. Google gagne. Pas parce que Gemini est plus malin que GPT, mais parce que Google a passé 25 ans à enregistrer ce que 4,3 milliards d'utilisateurs quotidiens cherchent, cliquent, ignorent et quittent de rage. Ce dataset comportemental — environ 8,5 milliards de requêtes par jour, chacune taguée avec les clics, le temps de lecture, la profondeur de scroll, les signaux de rebond et les schémas de reformulation — écrase tout autre corpus de préférences labellisées sur Terre. La barre de recherche n'est pas un produit. C'est le plus grand outil d'annotation du monde, et les humains le font tourner gratuitement.

Tous les labos d'IA qui construisent des systèmes de retrieval ou d'agents se heurtent au même mur : les données de préférence. RLHF et DPO — les techniques d'entraînement qui apprennent aux modèles quelles réponses les humains préfèrent vraiment — ne valent que ce que valent leurs exemples labellisés. OpenAI, Anthropic et Meta peuvent générer des préférences synthétiques ou payer des sous-traitants. Google, lui, ouvre juste une base de données. Nick Turley d'OpenAI a témoigné que leur objectif est de servir 80 % du trafic recherche de ChatGPT depuis leur propre index, avant d'admettre que 100 % est « tellement loin et tellement incertain ». Perplexity s'appuie sur l'index de Bing et ses 4 % de part de marché. Neeva — fondé par un ancien SVP de Google avec 77 millions de dollars de financement — a construit son propre index from scratch, a cramé le cash en trois ans et a vendu le cadavre à Snowflake en 2023. Kagi facture 10 $/mois et route quand même les requêtes via des API externes quand son propre crawler ne suffit pas. Le coût minimum d'un index de recherche viable dépasse les 500 millions de dollars à construire et coûte des dizaines de millions par an à maintenir. La couche de préférence au-dessus — savoir quel résultat est bon — coûte vingt-cinq ans de monopole.

Alors un juge fédéral a accidentellement créé le dataset d'entraînement IA le plus précieux au monde, et les avocats de Google appellent en urgence pour s'assurer que personne n'y touche.

Le 14 avril 2026, le juge Amit Mehta a formellement émis les remèdes antitrust après avoir statué que Google maintenait illégalement un monopole sur la recherche. L'ordonnance interdit les accords d'exclusivité par défaut (adieu le deal Apple à 19 milliards par an) pour six ans et force Google à fournir un instantané unique de son index de recherche plus les données d'interaction utilisateur — requêtes, clics, temps de survol, durée de lecture — aux concurrents qualifiés au moins deux fois sur cinq ans. Le tribunal a rédigé l'arrêt pour corriger la concurrence dans la recherche. Il a atterri en plein dans l'ère des données de préférence pour l'IA.

Voici ce que ces données d'interaction représentent en termes de machine learning : des milliards de labels de préférence humaine implicites. L'utilisateur a cherché X. Cliqué le résultat B. Resté 4 minutes. Est revenu en arrière. Cliqué le résultat D. Resté 12 secondes. A rebondi sur une requête reformulée. Cette séquence est un signal d'entraînement — exactement le format qu'on injecterait dans un pipeline Direct Preference Optimization ou qu'on utiliserait pour fine-tuner un reward model pour le RLHF. Google fait tourner ça à 8,5 milliards d'exemples par jour. Pour donner un ordre de grandeur, le plus grand dataset de préférences publiquement connu (Anthropic HH-RLHF) contient environ 170 000 comparaisons. Google génère ce volume toutes les deux secondes.

Un pipeline RAG entraîné sur ces données ne se contenterait pas de retrouver des documents — il apprendrait quels documents les humains font confiance pour quels types de requêtes, à quel niveau de lecture, avec quelles exigences de fraîcheur. C'est la différence entre « voici dix liens » et « voici la réponse que tu vas réellement accepter ». C'est une qualité de retrieval qu'aucun labo d'IA ne peut actuellement égaler sans passer par l'infrastructure de Google.

Google a fait appel le 16 janvier 2026, qualifiant le partage de données de « préjudice irréparable ». La Cour d'appel du D.C. Circuit n'entendra probablement pas les arguments oraux avant fin 2026, avec une décision autour de mi-2027. Même si l'ordonnance survit, un Comité Technique décide qui se qualifie comme « concurrent » — et si cela signifie Perplexity et OpenAI ou juste DuckDuckGo. Pendant ce temps, Google convertit déjà son monopole de recherche en distribution IA : le 12 janvier, Apple a accepté de payer Google environ 1 milliard de dollars par an pour intégrer Gemini dans Siri. Le monopole ne se dissout pas — il mute.

Des logs de requêtes bruts sans les algorithmes de classement de Google, c'est une cuisine sans recettes : des ingrédients utiles, pas un restaurant. Mais pour les labos d'IA, les ingrédients comptent plus que Google ne veut l'admettre. Tu n'as pas besoin de PageRank si tu entraînes un modèle de préférence. Tu as besoin du signal humain — ce qu'ils ont choisi, combien de temps ils sont restés, s'ils sont revenus. C'est exactement ce que le tribunal a ordonné de partager.

Toute l'industrie a cadré la décision de Mehta comme une histoire antitrust sur la recherche. C'est une histoire de données de préférence IA — le genre qui détermine si la recherche d'OpenAI reste un reskin de Bing ou devient un vrai concurrent, si Perplexity peut entraîner des modèles de retrieval qui égalent la qualité de Google, si n'importe quel framework d'agents peut ancrer ses réponses dans des signaux de pertinence validés par l'humain à l'échelle du milliard de requêtes. La douve que Google a remplie pendant 25 ans vient de recevoir une pompe ordonnée par un tribunal pointée dans l'autre sens. Qu'elle s'allume ou non dépend de juges d'appel qui ne peuvent probablement pas expliquer ce que DPO signifie. Le tribunal a posé le précédent : les données comportementales accumulées grâce à un pouvoir de monopole ne sont pas nécessairement des données de monopole. À l'ère de l'IA entraînée par préférences, ce n'est pas une note de bas de page antitrust — c'est toute la partie.

Un juge federal vient d'ordonner l'ouverture du meilleur dataset d'entrainement IA au monde — les avocats de Google ne sont pas d'accord

Keep reading

L'empire IA de Google roule sur des rails monopolistiques — et un juge vient de signaler la voie

Google a donne 100 API a ton agent IA. Gemini n'en a pas besoin

La boite de dialogue de permission de ton agent est un placebo

MCP marche partout - jusqu'a ce que tu essaies de t'authentifier