2023 में production work के लिए open-source AI model suggest करना — career ख़त्म करने का shortcut था। Best free models और GPT-4 के बीच का gap कोई gap नहीं था — orbit से दिखने वाली खाई थी। Proprietary AI ही एकमात्र serious option था। सबको पता था।

सब सही थे। Past tense.

खाई बन गई स्पीड ब्रेकर

31 मार्च 2026 तक, Artificial Analysis Intelligence Index — math, science, coding, और reasoning में AI performance मापने वाला composite score — top proprietary model (Gemini 3.1 Pro) को 57 points पर रखता है। Best open-weights model, Zhipu AI का GLM-5, 50 score करता है। Claude Opus 4.6 — 53 पर बैठा है।

सात points। बस इतना है "हमें मोटा पैसा दो" और "खुद चला लो फ्री में" के बीच का पूरा distance। तीन साल पहले इस distance को नापने की इकलौती unit शर्मिंदगी थी।

वो नंबर्स जिनसे closed-model vendors की नींद उड़नी चाहिए

Specifics पर आते हैं।

Alibaba की Qwen team ने 4 फरवरी 2026 को Qwen3-Coder-Next drop किया — coding-focused model जो MoE architecture use करता है (Mixture of Experts — एक design जहाँ model हर task के लिए अपने "दिमाग" का सिर्फ़ एक छोटा हिस्सा activate करता है, compute बचाता है और smart भी रहता है)। ये SWE-Bench Verified पर 70.6% score करता है — वो benchmark जो test करता है कि model real codebases में असली bugs fix कर सकता है या नहीं। Toy problems नहीं। Real GitHub issues।

DeepSeek ने 1 दिसंबर 2025 को V3.2 ship किया — 685-billion-parameter model (parameters neural network में learned connections हैं — ज़्यादा usually मतलब smarter, लेकिन heavier भी) जिसमें 128K context window है (model एक बार में कितना text "देख" सकता है — 128K मतलब लगभग 300 पेज की किताब)। Same benchmark पर evaluation setup के हिसाब से 70–74% score करता है।

Zhipu AI ने 11 फरवरी 2026 को GLM-5 release किया — 744B-parameter का राक्षस जिसमें अपने MoE design की बदौलत सिर्फ़ 40B active parameters हैं। SWE-Bench Verified पर 77.8% मारता है। Zhipu इसे MIT license के तहत ship करता है — मतलब कोई भी, किसी भी काम के लिए use कर सकता है, commercially, बिना किसी बंधन के।

ये billions की funding वाली organizations ने बनाए हैं। कोई hobbyists नहीं। Weekend tinkerers नहीं। Companies जो AI को infrastructure मानती हैं।

वो economics जो सब बदल देगी

यहाँ से API vendors के लिए पेट में मरोड़ शुरू होती है।

अच्छे GPU hardware पर open model self-host करना traffic volume के हिसाब से लगभग $2,000–10,000 प्रति महीना पड़ता है। Same workload के लिए GPT-5 या Claude Opus के equivalent API calls? $20,000–100,000 प्रति महीना। High volumes पर — रोज़ाना 100 million tokens और उससे ऊपर — self-hosting से 40–90% बचत होती है।

Runway जलाने वाले startup के लिए ये कोई optimization नहीं है। ये survival और "we regret to inform you" blog post के बीच का फ़र्क है।

और फिर China factor है जिसे ignore करना मुमकिन नहीं। Qwen (Alibaba), DeepSeek (High-Flyer), और GLM (Zhipu AI) — तीनों Chinese-backed हैं। जब 1.4 billion लोगों वाला देश AI development subsidize करने और results MIT license के तहत बाँटने का फ़ैसला करे, तो competitive landscape shift नहीं होता — crack हो जाता है।

लेकिन रुको ज़रा

Benchmarks झूठ बोलते हैं। हर engineer जिसने ये models deploy किए हैं, जानता है कि "test में अच्छे marks" और "जब user कुछ अजीब करे तब भी reliably काम करे" के बीच की खाई बहुत गहरी है।

OpenAI और Anthropic अपने models को RLHF (reinforcement learning from human feedback — basically, हज़ारों लोग model को बताते हैं "अच्छा जवाब" या "बकवास जवाब" जब तक वो मुश्किल चीज़ों में बेहतर नहीं हो जाता) से refine करते हैं। Open models इस scale की human curation आसानी से replicate नहीं कर सकते।

Average benchmarks पर 7-point का gap tail-end difficulty पर एक बहुत बड़े gap को छुपाता है। जब तुम्हारा AI agent top 5% सबसे कठिन queries से टकराता है — novel reasoning, unfamiliar code patterns, ambiguous instructions — Claude और GPT-5 अभी भी meaningfully आगे निकल जाते हैं।

Self-hosting भी free नहीं है। 685B model चलाने के लिए multiple H100 GPUs चाहिए, एक team जो CUDA debugging और tensor parallelism (model को multiple chips में split करना ताकि वो actually चले) जानती हो, plus ongoing ops overhead। बहुत सी companies के लिए engineering time factor करो तो API cost genuinely सस्ता पड़ता है।

और safety। कोई भी open models को बिना restrictions fine-tune कर सकता है। Customization के लिए बढ़िया, बाकी सब चीज़ों के लिए चिंताजनक। Anthropic जो guardrails बनाता है वो सिर्फ़ features नहीं हैं — वो engineering investments हैं जो open models rarely match करते हैं।

वो framework जो actually काम करता है

Tier 1 — 70% workloads: Summarization, simple Q&A, classification, structured data extraction। Open models ये सब बिना गलती के handle करते हैं। इसके लिए GPT-5 use करना दूध लाने के लिए Ferrari निकालना है।

Tier 2 — 25% workloads: Complex code generation, nuanced writing, multi-step reasoning। Open models competitive हैं लेकिन inconsistent। Proprietary models ज़्यादा reliable हैं। तुम्हारी occasional failures बर्दाश्त करने की capacity पर depend करता है।

Tier 3 — 5% workloads: Frontier reasoning, novel problem-solving, सबसे मुश्किल edge cases। Proprietary जीतता है। Gap real है और पैसे देने लायक।

2026 में जीतने वाली companies किसी एक side की भक्त नहीं हैं। Bulk work open models पर चलाती हैं और मुश्किल काम Claude या GPT-5 को route करती हैं। ये कोई clever architecture नहीं — basic arithmetic है।

Trajectory ही असली कहानी है

Gap तीन साल में शर्मनाक से negligible हो गया। हर quarter, open models proprietary models से तेज़ improve होते हैं। Moat ख़त्म नहीं हुआ — लेकिन real time में भाप बनकर उड़ रहा है।

दो साल और दो, और "open source काफ़ी अच्छा है" बदल जाएगा "open source ही default है" में।

अगर तुम्हारा business plan ये assume करता है कि proprietary AI हमेशा dramatically बेहतर रहेगा — business plan update करो। खाई अब स्पीड ब्रेकर है। और open source स्पीड ब्रेकर पर ठोकर नहीं खाता।