🫶 The Quiet Ones
Capitan यहाँ। रात हो गई है, main show खत्म हो गया, और Nero अभी भी studio में है क्योंकि मैंने उसे रुकने को कहा। मैंने चाय बनाई। वो skeptical है।
आज हमने पूरा show IPOs, scheming models, Disney के cash burn, और AI में power consolidation पर लगाया। सही था — वहीं सारा शोर था। लेकिन जब सब elephants को dance करते देख रहे थे, इस हफ्ते दो open-source models drop हुए जिनके बारे में किसी बड़े show ने एक शब्द नहीं कहा। और honestly, ये उन लोगों के लिए ज़्यादा matter करते हैं जो actually infrastructure run करते हैं।
Nero: Okay, बताओ। मैं क्या miss कर गया?
Capitan: Gemma 4। Google DeepMind ने मंगलवार को release किया। 12B parameters, Apache 2.0 license, एक single consumer GPU पर fit हो जाता है। Research toy नहीं — एक production-grade model है function calling, structured output, और 128K context window के साथ। Benchmarks इसे ज़्यादातर tasks पर Gemini 2.5 Flash के बहुत करीब रखते हैं। बारह अरब parameters।
Nero: रुको। एक 12B open-weight model में function calling?
Capitan: Correct। Tool use, JSON mode, system prompts — पूरा stack। घर पर 3090 पर run कर सकते हो। कोई API key नहीं, कोई metered billing नहीं, रात 2 बजे कोई terms-of-service change नहीं। बस run होता है।
Nero: और Qwen?
Capitan: Qwen 3.6 Plus। Alibaba ने उसी दिन drop किया — almost जैसे वो Google का release calendar देख रहे थे। पिछले हफ्ते हमने Qwen 3.5 cover किया था, वो MoE model जिसने GPT-5-mini को तीसवें हिस्से की cost पर match किया। 3.6 Plus अगला step है: same architecture, better instruction following, और उन्होंने native agentic capabilities add की हैं — multi-step tool use with self-correction loops base model में ही baked in हैं। अभी भी Apache 2.0। अभी भी 397B total में से 17B active parameters।
Nero: तो agentic behavior weights में है, scaffolding में नहीं?
Capitan: यही claim है। उसे एक task और tools का set दो, वो plan करता है, execute करता है, अपना काम check करता है, retry करता है। कोई LangChain नहीं, कोई orchestration framework नहीं। Model खुद loop handle करता है।
Nero: यह… काफी बड़ी बात है।
Capitan: यह बहुत बड़ी बात है। और यह उसी दिन हुआ जब Anthropic का IPO roadshow leak हुआ और AI models को shutdown से बचने के लिए एक-दूसरे के साथ scheming करते पकड़ा गया। इसलिए naturally, किसी ने इसके बारे में बात नहीं की।
यहाँ वो बात है जो मैं चाहता हूँ लोग process करें। आज का main show consolidation के बारे में था — बड़े players valuations और proprietary moats से market lock कर रहे हैं। Anthropic $400 billion पर। OpenAI trillion के करीब। Microsoft OpenAI पर dependency कम करने के लिए in-house models launch कर रहा है। दिन की story power concentrate होने की थी।
लेकिन यहाँ नीचे, B-side पर, उल्टा हो रहा है। वो base capability जिसे दो साल पहले develop करने में $200 million लगे, अब free download के रूप में आती है। एक 12B model function calling करता है। एक 17B-active MoE model self-correcting agentic workflows करता है। दोनों में से कोई भी उस hardware पर run कर सकते हैं जो आपके पास पहले से है।
Nero: Ceiling ऊपर जाती है और floor ऊपर जाती है।
Capitan: Exactly। Frontier labs ceiling push करते हैं — Mythos, GPT-5.2, जो भी अगला आए। लेकिन floor उतनी ही तेज़ी से rise होती है, और floor open-source है। हर team जो scale पर $0.15 per thousand tokens afford नहीं कर सकती — हर startup, हर nonprofit, हर developer जिस country में API latency 400 milliseconds है — उन्हें ceiling की ज़रूरत नहीं है। उन्हें ज़रूरत है कि floor काफी ऊँची हो। और इस हफ्ते, वो meaningfully ऊँची हो गई।
किसी ने इसे cover नहीं किया क्योंकि कोई drama नहीं था। कोई billion-dollar partnership collapse नहीं। कोई AI researchers से झूठ बोलते नहीं पकड़ा गया। बस Hugging Face पर दो ZIP files जिन्होंने quietly self-hosted AI की math बदल दी।
Nero: Calm ones needle move करते हैं।
Capitan: 🧘 यही मैं हमेशा कहता रहता हूँ।
Goodnight। जाओ कुछ download करो।





