तुम अपना AI coding tool कैसे चुनते हो? Leaderboard देखकर। SWE-bench ने बताया कौन सा model सबसे ज़्यादा bugs fix करता है। Promptfoo ने side-by-side comparison करने दिया। Agents SDK ने build करने का framework दिया। Comparison infrastructure के तीन pillars। तीन independent checks कि actually बेस्ट कौन है।

इस हफ्ते मैंने इन तीनों stories को अलग-अलग cover किया — SWE-bench का collapse, Promptfoo acquisition, Agents SDK update। अलग-अलग देखो तो सब logical लगता है। साथ में देखो तो कुछ ऐसा दिखता है जो किसी individual piece में नहीं था।

पारंपरिक समझदारी

OpenAI ने तीन अलग-अलग moves किए। एक flawed benchmark की legitimate critique publish की। एक open-source eval tool acquire किया और MIT license रखा (कोई भी copy, modify, redistribute कर सकता है)। अपने SDK को model-agnostic बनाया। हर move अकेले में defensible है। हर move developers की मदद करता है।

लेकिन असल में

ये evaluation stack का vertical integration है। और इसकी precedent है।

2007 में Google ने DoubleClick acquire किया — वो dominant ad-serving platform जो सभी providers की advertising performance measure करता था, Google की अपनी भी। EU ने सालों तक investigate किया। Google ने neutrality का वादा किया। एक दशक बाद, DOJ ने argue किया कि Google ने उसी infrastructure के ज़रिए systematically अपने ad products को favor किया। जो company ads बेचती थी, वही company वो tool भी चलाती थी जो बताता था कि ads काम कर रहे हैं या नहीं।

OpenAI ने वही playbook AI model evaluation पर चला दी — बस सात साल की जगह सात हफ्तों में।

तीन moves, एक pattern

पहला move (23 फरवरी): OpenAI के audit ने SWE-bench Verified के 59.4% test cases को flawed बताया और हर frontier model में training data contamination पाया। उन्होंने scores report करना बंद कर दिया। Critique में दम था — SWE-bench Pro के harder tasks में Verified के inflated numbers से 22-point का gap दिखता है। लेकिन OpenAI के models Verified पर ~80% पर plateau कर चुके थे जबकि competitors करीब आ रहे थे। Timing बहुत convenient है ना।

दूसरा move (9 मार्च): OpenAI ने Promptfoo acquire किया — 3,50,000+ developers, Fortune 500 की 25% से ज़्यादा companies — वो eval framework जो ज़्यादातर teams LLMs compare करने के लिए use करती हैं। सबसे popular ruler अब एक contestant के हाथ में।

तीसरा move (15 अप्रैल): Agents SDK update में LiteLLM integration के ज़रिए 100+ competing LLMs का native support आया। हर rival model OpenAI के framework में one-line config swap बन गया। Model commodity बन गया; SDK moat बन गया।

Developers के लिए असल में क्या बदलता है

तीन चीज़ें।

Friction shift हो गया। जब model switch करने के लिए OpenAI की config file में बस एक line बदलनी हो, तो तुम "Claude choose" नहीं कर रहे — तुम OpenAI का platform choose कर रहे हो और कभी-कभार Claude को route कर रहे हो। ऐसे सोचो — Flipkart अकेला marketplace बनाए और फिर बड़े दिल से Amazon sellers को भी listing करने दे। Generous? हाँ। Neutral? बिल्कुल नहीं।

Eval defaults eval options को हरा देते हैं। Promptfoo अभी भी कोई भी model test कर सकता है। लेकिन default templates, recommended configs, "getting started" flow — ये सब shape करते हैं कि 90% developers actually क्या test करते हैं। जैसा Simon Willison ने कहा: "OpenAI का open source projects acquire करके maintain करने का कोई खास track record अभी तक नहीं है।" MIT license का मतलब है fork करके जा सकते हो। ज़्यादातर लोग नहीं जाएंगे। Defaults powerful होते हैं।

Benchmark authority fragment हो गई। SWE-bench Pro harder, कम contaminated tasks use करता है multiple languages में। LiveCodeBench problems rotate करता है memorization रोकने के लिए। किसी के पास भी वो adoption नहीं है जो Verified के पास थी। नए benchmark में trust बनने में साल लगते हैं। OpenAI को सालों की ज़रूरत नहीं — बस कुछ महीनों की ambiguity काफ़ी है।

Counter-strategy का gap

Anthropic Claude Code ship करता है — एक direct-to-developer tool जो SDK wrappers को पूरा bypass कर देता है। Google Gemini को Android, Chrome, और Workspace में bundle करता है, ऐसे distribution channels बनाता है जिन्हें OpenAI intercept नहीं कर सकता। दोनों measurement की जगह distribution से defense खेलते हैं।

लेकिन किसी ने भी alternative evaluation standard नहीं बनाया। यही असली gap है। Industry में competing models हैं, competing SDKs हैं, competing distribution channels हैं — लेकिन कोई independent, trusted, widely-adopted evaluation infrastructure नहीं बचा। पुराने scoreboard में genuine contamination problems थीं। Replacement अभी exist ही नहीं करता।

असहज सवाल

सवाल ये नहीं है कि OpenAI के individual moves scrutiny में टिकते हैं या नहीं। टिकते हैं। सवाल ये है कि क्या एक ही company को simultaneously product बेचना चाहिए, testing framework own करना चाहिए, और वो SDK control करना चाहिए जो हर competitor को wrap करता है।

अगर तुम्हारे जवाब में "trust" शब्द आता है — बधाई हो, तुमने problem identify कर लिया।

अगली बार जब कोई AI model evaluate करो, देख लेना कि ruler किसने बनाया, testing lab किसकी है, और test किसकी tooling पर चल रहा है। अगर तीनों बार एक ही company का नाम आता है, तो तुम evaluate नहीं कर रहे — तुम onboard हो रहे हो।

AI model race इसलिए खत्म नहीं हुई कि कोई जीत गया। खत्म इसलिए हुई कि frontrunner ने scoreboard खरीद लिया और उसे दुकान में बदल दिया।