Federalny sedzia nakazal udostepnic najlepszy zbior danych treningowych AI na swiecie -- prawnicy Google sie nie zgadzaja

Zadaj ChatGPT albo Perplexity podchwytliwe pytanie — powiedzmy 'najlepszy bagaż podręczny na tanie linie" — i porównaj odpowiedź z tym, co daje Google. Google wygrywa. Nie dlatego, że Gemini jest mądrzejsze od GPT, ale dlatego, że Google przez 25 lat nagrywał, co 4,3 miliarda użytkowników dziennie wyszukuje, klika, ignoruje i w złości zamyka. Ten behawioralny zbiór danych — około 8,5 miliarda zapytań dziennie, każde otagowane kliknięciami, czasem spędzonym na stronie, głębokością scrollowania, sygnałami odrzuceń i wzorcami przeformułowań — przyćmiewa każdy inny oznaczony korpus preferencji na Ziemi. Pasek wyszukiwania to nie produkt. To największe narzędzie do anotacji danych na świecie, a ludzie obsługują je za darmo.

Każde laboratorium AI budujące systemy retrieval lub agentowe wpada na ten sam mur: dane preferencyjne. RLHF i DPO — techniki treningowe, które uczą modele, jakie odpowiedzi ludzie naprawdę lubią — są tak dobre, jak dobre są ich oznaczone przykłady. OpenAI, Anthropic i Meta mogą generować syntetyczne preferencje albo płacić kontraktorom. Google po prostu otwiera bazę danych. Nick Turley z OpenAI zeznał, że ich celem jest obsługa 80% ruchu wyszukiwarkowego ChatGPT z własnego indeksu, po czym przyznał, że 100% jest 'tak daleko i tak niepewne". Perplexity opiera się na indeksie Binga z jego 4-procentowym udziałem w rynku. Neeva — założona przez byłego SVP Google'a z 77 milionami dolarów finansowania — zbudowała własny indeks od zera, przepaliła kasę w trzy lata i sprzedała zwłoki Snowflake'owi w 2023 roku. Kagi kasuje 10 dolarów miesięcznie i wciąż przekierowuje zapytania przez zewnętrzne API, kiedy własny crawler nie daje rady. Minimalny opłacalny indeks wyszukiwarki kosztuje ponad 500 milionów dolarów do zbudowania i dziesiątki milionów rocznie na utrzymanie. Warstwa preferencji na wierzchu — wiedza o tym, który wynik jest dobry — kosztuje dwadzieścia pięć lat monopolu.

Więc federalny sędzia przypadkowo stworzył najcenniejszy zbiór danych treningowych AI na Ziemi, a prawnicy Google'a gorączkowo dzwonią, żeby nikt go nie ruszył.

14 kwietnia 2026 roku sędzia Amit Mehta formalnie wydał środki antymonopolowe po orzeczeniu, że Google bezprawnie utrzymywał monopol na wyszukiwarkę. Nakaz zakazuje ekskluzywnych umów domyślnych (żegnaj, 19-miliardowy roczny uścisk dłoni z Apple) na sześć lat i zmusza Google do przekazania jednorazowego snapshota swojego indeksu wyszukiwania plus danych o interakcjach użytkowników — zapytania, kliknięcia, czasy najechania, czasy spędzone na stronie — kwalifikowanym konkurentom co najmniej dwa razy w ciągu pięciu lat. Sąd napisał orzeczenie, żeby naprawić konkurencję na rynku wyszukiwarek. Trafiło prosto w erę danych preferencyjnych w AI.

Czym tak naprawdę są te dane o interakcjach w terminach uczenia maszynowego: miliardy domyślnych ludzkich etykiet preferencji. Użytkownik wyszukał X. Kliknął wynik B. Został 4 minuty. Wrócił. Kliknął wynik D. Został 12 sekund. Uciekł do przeformułowanego zapytania. Ta sekwencja to sygnał treningowy — dokładnie w formacie, jaki wrzuciłbyś do pipeline'u Direct Preference Optimization albo użył do fine-tuningu modelu nagrodowego dla RLHF. Google generuje to w skali 8,5 miliarda przykładów dziennie. Dla kontekstu: największy publicznie znany zbiór preferencji (Anthropic HH-RLHF) zawiera około 170 000 porównań. Google produkuje taki wolumen co dwie sekundy.

Pipeline RAG wytrenowany na tych danych nie tylko wyszukiwałby dokumenty — nauczyłby się, którym dokumentom ludzie ufają przy jakim typie zapytań, na jakim poziomie czytelności, z jakimi wymaganiami świeżości. To jest różnica między 'oto dziesięć linków" a 'oto odpowiedź, którą faktycznie zaakceptujesz". To jakość retrieval na poziomie, którego żadne laboratorium AI nie jest w stanie obecnie osiągnąć bez routingu przez infrastrukturę Google'a.

Google złożył apelację 16 stycznia 2026 roku, nazywając udostępnienie danych 'nieodwracalną szkodą". Sąd apelacyjny okręgu Dystryktu Kolumbii prawdopodobnie nie wysłucha argumentów ustnych do końca 2026 roku, a decyzja zapadnie około połowy 2027. Nawet jeśli nakaz przetrwa, Komitet Techniczny zdecyduje, kto kwalifikuje się jako 'konkurent" — i czy chodzi o Perplexity i OpenAI, czy tylko o DuckDuckGo. W międzyczasie Google już konwertuje swój monopol wyszukiwarkowy na dystrybucję AI: 12 stycznia Apple zgodziło się płacić Google'owi około miliarda dolarów rocznie za osadzenie Gemini w Siri. Monopol się nie rozpuszcza — zmienia kształt.

Surowe logi zapytań bez algorytmów rankingowych Google'a to kuchnia bez przepisów: przydatne składniki, nie restauracja. Ale dla laboratoriów AI składniki mają większe znaczenie, niż Google chce przyznać. Nie potrzebujesz PageRanka, jeśli trenujesz model preferencji. Potrzebujesz ludzkiego sygnału — co wybrali, jak długo zostali, czy wrócili. Dokładnie to sąd nakazał udostępnić.

Cała branża przedstawiła orzeczenie Mehty jako historię antymonopolową o wyszukiwarkach. To historia o danych preferencyjnych AI — tego rodzaju, który decyduje, czy wyszukiwarka OpenAI zostanie reskinnem Binga, czy stanie się prawdziwym konkurentem, czy Perplexity będzie mogło trenować modele retrieval dorównujące jakością Google'owi, czy jakikolwiek framework agentowy będzie w stanie uziemić swoje odpowiedzi w sygnałach trafności zwalidowanych przez ludzi w skali miliardów zapytań. Fosa, którą Google napełniał przez 25 lat, właśnie dostała sądowy nakaz pompowania w drugą stronę. Czy pompa się włączy — zależy od sędziów apelacyjnych, którzy prawdopodobnie nie potrafią wyjaśnić, co oznacza skrót DPO. Sąd ustanowił precedens: dane behawioralne zgromadzone dzięki monopolistycznej pozycji mogą nie pozostać danymi monopolistycznymi. W erze AI trenowanego na preferencjach to nie przypis antymonopolowy — to cała gra.

Federalny sedzia nakazal udostepnic najlepszy zbior danych treningowych AI na swiecie -- prawnicy Google sie nie zgadzaja

Keep reading

Imperium AI Google'a jedzie po torach monopolu -- a sedzia wlasnie podniosl czerwona flage

Google dal twojemu agentowi AI 100 API. Gemini ich nie potrzebuje

Okienko uprawnien twojego agenta to placebo

MCP dziala wszedzie — do momentu uwierzytelniania