एक फेडरल जज ने दुनिया का सबसे कीमती AI Training Dataset खोलने का आदेश दिया — Google के वकील राज़ी नहीं

ChatGPT या Perplexity से कोई tricky question पूछो — मान लो, "budget airlines के लिए बेस्ट carry-on luggage" — और जवाब Google से compare करो। Google जीतेगा। इसलिए नहीं कि Gemini, GPT से ज़्यादा smart है, बल्कि इसलिए कि Google ने 25 साल लगाए ये record करने में कि 4.3 billion daily users क्या search करते हैं, कहाँ click करते हैं, क्या ignore करते हैं, और कहाँ frustrate होकर tab बंद कर देते हैं। वो behavioral dataset — लगभग 8.5 billion queries per day, हर एक clicks, dwell time, scroll depth, bounce signals, और reformulation patterns से tagged — इस धरती पर हर दूसरे labeled preference corpus से कहीं बड़ा है। Search bar कोई product नहीं है। ये दुनिया का सबसे बड़ा annotation tool है, और इंसान इसे मुफ़्त में operate करते हैं।

हर AI lab जो retrieval या agent systems बना रही है, एक ही दीवार से टकराती है: preference data। RLHF और DPO — वो training techniques जो models को सिखाती हैं कि इंसानों को actually कौन से जवाब पसंद आते हैं — उतनी ही अच्छी हैं जितने उनके labeled examples। OpenAI, Anthropic, और Meta synthetic preferences generate कर सकते हैं या contractors को पैसे दे सकते हैं। Google बस एक database खोलता है। OpenAI के Nick Turley ने testimony दी कि उनका goal ChatGPT search traffic का 80% अपने index से serve करना है, फिर माना कि 100% "बहुत दूर और बहुत uncertain है।" Perplexity, Bing के 4% market-share index पर depend करती है। Neeva — जो एक former Google SVP ने $77 million funding के साथ बनाई थी — ने scratch से अपना index बनाया, तीन साल में पैसा जला दिया, और 2023 में Snowflake को बेच दिया। Kagi $10/month charge करती है और फिर भी जब उसका crawler short पड़ता है तो external APIs से queries route करती है। एक minimum viable search index बनाने में $500 million से ज़्यादा लगते हैं और maintain करने में हर साल करोड़ों। ऊपर preference layer — ये जानना कि कौन सा result actually अच्छा है — उसकी कीमत है पच्चीस साल की monopoly।

तो एक federal judge ने गलती से दुनिया का सबसे valuable AI training dataset बना दिया, और Google के lawyers जी-जान से लगे हैं कि कोई इसे छू न पाए।

14 अप्रैल, 2026 को Judge Amit Mehta ने formally antitrust remedies जारी कीं, ये ruling देने के बाद कि Google ने illegally search monopoly maintain की। Order छह साल के लिए exclusive default deals ban करता है (अलविदा, $19-billion-per-year Apple handshake) और Google को force करता है कि वो अपने search index plus user-interaction data — queries, clicks, hover times, dwell duration — का one-time snapshot qualified competitors को कम से कम पाँच साल में दो बार दे। Court ने ruling search competition fix करने के लिए लिखी थी। लेकिन ये preference-data era of AI में जा गिरी।

Machine-learning terms में ये interaction data actually क्या है: billions of implicit human preference labels। User ने X search किया। Result B पर click किया। 4 मिनट रुका। वापस गया। Result D पर click किया। 12 seconds रुका। Bounce करके reformulated query पर गया। ये sequence एक training signal है — exactly वो format जो तुम Direct Preference Optimization pipeline में feed करोगे या RLHF के reward model को fine-tune करने में use करोगे। Google ये 8.5 billion examples per day पर run करता है। Context के लिए, सबसे बड़ा publicly known preference dataset (Anthropic का HH-RLHF) लगभग 170,000 comparisons contain करता है। Google ये volume हर दो सेकंड में generate करता है।

इस data पर trained RAG pipeline सिर्फ documents retrieve नहीं करेगा — ये सीखेगा कि किस query type के लिए इंसान किन documents पर trust करते हैं, किस reading level पर, किस freshness requirement के साथ। यही फ़र्क है "ये लो दस links" और "ये रहा वो answer जो तुम actually accept करोगे" के बीच। ये retrieval quality का वो level है जो कोई AI lab currently Google के infrastructure से route किए बिना match नहीं कर सकती।

Google ने 16 जनवरी, 2026 को appeal file की, data share को "irreparable harm" बताते हुए। D.C. Circuit शायद late 2026 तक oral arguments नहीं सुनेगा, decision mid-2027 के आसपास आएगा। अगर order survive भी करता है, तो एक Technical Committee decide करेगी कि "competitor" का मतलब कौन है — Perplexity और OpenAI या सिर्फ DuckDuckGo। इस बीच, Google अपनी search monopoly को AI distribution में convert कर रहा है: 12 जनवरी को, Apple ने Google को roughly $1 billion annually देने का agreement किया Gemini को Siri में embed करने के लिए। Monopoly dissolve नहीं हो रही — shapeshifting कर रही है।

Google के ranking algorithms के बिना raw query logs एक ऐसी kitchen हैं जिसमें recipes नहीं हैं: useful ingredients हैं, restaurant नहीं। लेकिन AI labs के लिए, ingredients उससे ज़्यादा matter करते हैं जितना Google मानना चाहता है। तुम्हें PageRank नहीं चाहिए अगर तुम preference model train कर रहे हो। तुम्हें human signal चाहिए — उन्होंने क्या choose किया, कितनी देर रुके, वापस आए या नहीं। और exactly यही court ने share करने का order दिया है।

पूरी industry ने Mehta की ruling को search antitrust story की तरह frame किया। ये AI preference-data story है — वो kind जो decide करेगी कि OpenAI का search Bing reskin बना रहेगा या real competitor बनेगा, कि Perplexity retrieval models train कर पाएगी जो Google की quality match करें, कि कोई भी agent framework अपने answers को billion-query scale पर human-validated relevance signals में ground कर पाएगा या नहीं। वो moat जो Google ने 25 साल में भरी, उसपर अब court-ordered pump लगा दिया गया है उल्टी तरफ। ये चालू होगा या नहीं, ये appellate judges पर depend करता है जो शायद ये भी नहीं बता सकते कि DPO का full form क्या है। Court ने precedent set कर दिया: monopoly power से accumulate हुआ behavioral data शायद monopoly data न रहे। Preference-trained AI के युग में, ये कोई antitrust footnote नहीं है — ये पूरा game है।

एक फेडरल जज ने दुनिया का सबसे कीमती AI Training Dataset खोलने का आदेश दिया — Google के वकील राज़ी नहीं

Keep reading

Google का AI साम्राज्य Monopoly की पटरियों पर चलता है — और जज ने अभी ट्रैक पर लाल झंडी दिखा दी

Google ने तुम्हारे AI Agent को 100 APIs दिए। Gemini को इनकी ज़रूरत ही नहीं

तुम्हारे Agent का Permission Dialog एक Placebo है

MCP हर जगह काम करता है — जब तक Authenticate करने की बारी न आए