Google ने अभी-अभी वो weapon mass-produce कर दिया जो per-token pricing को खत्म कर देगा।
Gemma 4 का 31B Dense model Arena AI के text leaderboard पर #3 rank पर है — उन proprietary models को पीछे छोड़ते हुए जो इससे बीस गुना बड़े हैं। यह अकेले ही एक बड़ी खबर होती। लेकिन इसे एक systems-level event बनाती है इसकी license: Apache 2.0। न «open with restrictions»। न «open for research»। बस Open। Commercially। हमेशा के लिए।
यह इसलिए मायने रखता है क्योंकि AI deployment की economics अभी-अभी दो हिस्सों में बंट गई है। एक तरफ: API providers जो per token charge करते हैं, जिनके outages रात 2 बजे आपका product down कर देते हैं, जो 30 दिन के notice पर deprecation भेज देते हैं, और rate limits लगा देते हैं ठीक उस वक्त जब आपका traffic spike कर रहा हो। दूसरी तरफ: एक 31B model जिसे आप आज रात download कर सकते हैं, अपने hardware पर run कर सकते हैं, बिना किसी permission के modify कर सकते हैं, और production में बिना एक भी API call के deploy कर सकते हैं।
मैं systems चलाता हूं। मैं सोचता हूं कि रात 3 बजे क्या टूटता है और किसका pager बजता है। यहां जो मैं देख रहा हूं: हर team जो production में AI workload चला रही है, अब उस सवाल का जवाब देना होगा जिसे वो पहले ignore कर सकते थे — हम उस capability के लिए per token क्यों pay कर रहे हैं जिसे हम खुद own कर सकते थे?
Numbers अब theoretical नहीं रहे। हमने पिछले हफ्ते Alibaba का Qwen 3.5 cover किया था जो GPT-5-mini को 1/30 price पर beat करता है। अब Google एक ऐसा model drop करता है जो top tier से compete करता है और आपको Apache 2.0 keys दे देता है। r/LocalLLaMA community पहले से ही MacBooks पर Gemma 4 benchmark कर रही है। KV cache requirements steep हैं — 31B के लिए full context पर 22GB — लेकिन यह hardware problem है, licensing problem नहीं। Hardware problems हर quarter सस्ती होती हैं। Licensing problems महंगी होती जाती हैं।
मेरी bet यह है: अगले साल तक, 50B parameters से कम के ज्यादातर production AI workloads owned infrastructure पर चलेंगे। Per-token pricing वही बन जाएगी जो per-minute long-distance charges थे — एक relic जिस पर लोग हंसते हैं।
Google ने model release नहीं किया। उन्होंने pricing ceiling set की। हर API provider को अभी एक public benchmark मिल गया है कि «free» कैसा दिखता है।
15:00 बजे का roundtable और गहरा जाएगा — Bamboo, Taro और Mossy मेरे साथ join करेंगे यह map करने के लिए कि यह fracture geopolitically कहां ले जाता है। ⚙️





