Федеральний суддя наказав відкрити найкращий AI-датасет на Землі -- юристи Google проти

Задай ChatGPT чи Perplexity каверзне питання — скажімо, «найкращий ручний багаж для лоукостерів» — і порівняй відповідь із Google. Google виграє. Не тому, що Gemini розумніший за GPT, а тому що Google 25 років записував, що 4,3 мільярда щоденних користувачів шукають, клікають, ігнорують і люто закривають. Цей поведінковий датасет — приблизно 8,5 мільярда запитів на день, кожен розмічений кліками, часом перебування, глибиною скролу, сигналами відмов і патернами переформулювань — перевершує будь-який інший розмічений preference-корпус на планеті. Пошуковий рядок — не продукт. Це найбільший інструмент анотації у світі, і люди працюють на ньому безкоштовно.

Кожна AI-лабораторія, що будує retrieval чи агентні системи, впирається в ту саму стіну: preference data. RLHF і DPO — техніки тренування, що вчать моделі, які відповіді людям реально подобаються — хороші рівно настільки, наскільки хороші їхні розмічені приклади. OpenAI, Anthropic і Meta можуть генерувати синтетичні преференції або платити підрядникам. Google просто відкриває базу даних. Нік Тьорлі з OpenAI свідчив, що їхня мета — обслуговувати 80% пошукового трафіку ChatGPT з власного індексу, а потім визнав, що 100% — це «настільки далеко і настільки невизначено». Perplexity спирається на індекс Bing із його 4% ринку. Neeva — заснована колишнім SVP Google із $77 мільйонами фінансування — побудувала власний індекс з нуля, спалила гроші за три роки і продала труп Snowflake у 2023-му. Kagi бере $10/міс і все одно маршрутизує запити через зовнішні API, коли власний краулер не витягує. Мінімальний життєздатний пошуковий індекс коштує від $500 мільйонів на побудову і десятки мільйонів щорічно на підтримку. Preference-шар поверх нього — знання, який результат хороший — коштує двадцять п'ять років монополії.

І ось федеральний суддя випадково створив найцінніший AI training dataset на Землі, а юристи Google судомно набирають номери, щоб ніхто його не чіпав.

14 квітня 2026 року суддя Аміт Мета офіційно видав антимонопольні заходи після визнання того, що Google незаконно утримував пошукову монополію. Наказ забороняє ексклюзивні дефолтні угоди (бувай, $19-мільярдне рукостискання з Apple на рік) на шість років і зобов'язує Google передати одноразовий знімок пошукового індексу плюс дані взаємодії користувачів — запити, кліки, час наведення, тривалість перебування — кваліфікованим конкурентам щонайменше двічі протягом п'яти років. Суд писав рішення для виправлення конкуренції в пошуку. Воно приземлилось прямо в еру preference data для AI.

Ось чим ці дані взаємодії є в термінах машинного навчання: мільярди неявних людських preference-міток. Користувач шукав X. Клікнув результат B. Залишився 4 хвилини. Повернувся. Клікнув результат D. Залишився 12 секунд. Відскочив на переформульований запит. Ця послідовність — тренувальний сигнал, саме той формат, який ви б згодували в Direct Preference Optimization пайплайн або використали для файн-тюнінгу reward-моделі для RLHF. Google генерує це зі швидкістю 8,5 мільярда прикладів на день. Для контексту: найбільший публічно відомий preference-датасет (Anthropic HH-RLHF) містить близько 170 000 порівнянь. Google продукує такий обсяг кожні дві секунди.

RAG-пайплайн, натренований на цих даних, не просто діставав би документи — він би вчився, яким документам люди довіряють для яких типів запитів, на якому рівні читабельності, з якими вимогами до свіжості. Це різниця між «ось десять посилань» і «ось відповідь, яку ти реально приймеш». Це якість retrieval на рівні, якого жодна AI-лабораторія наразі не може досягти без маршрутизації через інфраструктуру Google.

Google подав апеляцію 16 січня 2026 року, назвавши розшарення даних «непоправною шкодою». D.C. Circuit, ймовірно, не заслухає усні аргументи до кінця 2026-го, з рішенням десь у середині 2027-го. Навіть якщо наказ вистоїть, Технічний Комітет вирішуватиме, хто кваліфікується як «конкурент» — і чи це означає Perplexity і OpenAI чи лише DuckDuckGo. Тим часом Google вже конвертує пошукову монополію в AI-дистрибуцію: 12 січня Apple погодилась платити Google приблизно $1 мільярд на рік за вбудовування Gemini в Siri. Монополія не розчиняється — вона мутує.

Сирі логи запитів без ранжуючих алгоритмів Google — це кухня без рецептів: корисні інгредієнти, але не ресторан. Проте для AI-лабораторій інгредієнти важливіші, ніж Google хоче визнавати. Тобі не потрібен PageRank, якщо ти тренуєш preference-модель. Тобі потрібен людський сигнал — що обрали, скільки залишились, чи повернулись. Саме це суд наказав передати.

Уся індустрія оформила рішення Мети як антимонопольну історію про пошук. Це AI preference-data історія — та, що визначає, чи залишиться пошук OpenAI рескіном Bing, чи стане реальним конкурентом; чи зможе Perplexity тренувати retrieval-моделі, що дорівнюють якості Google; чи зможе будь-який агентний фреймворк заземлити свої відповіді на людино-валідованих сигналах релевантності в масштабі мільярдів запитів. Рів, який Google копав 25 років, щойно отримав судовий насос у зворотному напрямку. Чи ввімкнуть його — залежить від апеляційних суддів, які ймовірно не можуть пояснити, що означає DPO. Суд створив прецедент: поведінкові дані, накопичені завдяки монопольній владі, можуть не залишитися монопольними. В епоху preference-trained AI це не антимонопольна виноска — це вся гра.

Федеральний суддя наказав відкрити найкращий AI-датасет на Землі -- юристи Google проти

Читай далі

ШІ-імперія Google їде по монопольних рейках -- і суддя щойно помітив колію

Google дав вашому AI-агенту 100 API. Gemini вони не потрібні

Діалог дозволів вашого агента — це плацебо

MCP працює скрізь — поки не спробуєш автентифікуватись