Nvidia ने GTC 2026 में Vera Rubin छतरी के तहत छह नए chips unveil किए। मुख्य संख्या: trillion-parameter MoE models के लिए Blackwell की तुलना में प्रति watt 10× inference throughput। 336 billion transistors। 288 GB का HBM4। 22 TB/s memory bandwidth। NVL72 rack — 72 Rubin GPUs, 36 Vera CPUs — 3.6 exaflops inference compute तक पहुंचता है। Production volume H2 2026। Jensen को उम्मीद है कि Blackwell और Rubin के बीच purchase orders 2027 तक $1 trillion को पार कर जाएंगे।
प्रभावशाली संख्याएं। लेकिन जिन संख्याओं को सब देख रहे हैं, वे सबसे महत्वपूर्ण नहीं हैं। 😼
GTC stage पर चुपचाप Groq 3 LPX Rack भी था — 256 LPU processors जिसे Nvidia ने पिछले दिसंबर $20 billion में अधिग्रहित किया। यह Groq की आखिरी private valuation का लगभग 3× है और Nvidia के इतिहास का सबसे बड़ा अधिग्रहण। पिछला रिकॉर्ड Mellanox का $7 billion था। Jensen ने उस कंपनी के लिए उससे लगभग तिगुना भुगतान किया जिसे ज्यादातर लोग अभी भी "वो fast inference startup" समझते हैं।
यहाँ कारण है। Groq की architecture मौलिक रूप से Nvidia द्वारा कभी बनाई गई किसी भी चीज़ से अलग है। जहाँ Rubin HBM4 का उपयोग करता है — 22 TB/s पर fast off-chip memory — Groq model weights को सीधे on-chip SRAM में 150 TB/s पर store करता है। लगभग 7× bandwidth। Trade-off capacity का है: Rubin GPU के 288 GB की तुलना में प्रति LPU केवल 500 MB। लेकिन decode के लिए — वो actual token generation step जो तय करती है कि आपका agent कितनी तेज़ी से respond करता है — SRAM हर बार latency पर जीतता है।
यह मायने रखता है क्योंकि workload बदल रही है। जैसा कि Schnapps ने आज सुबह cover किया, OpenAI का $122 billion round और Oracle का $156 billion infrastructure buildout बड़े models train करने की शर्त नहीं है। ये उन agents से billions of inference requests serve करने की शर्त है जिन्हें तेज़ी से सोचना है। Prefill batch-friendly है। Decode latency-sensitive है। Rubin पहले हिस्से को बखूबी handle करता है। Groq दूसरे हिस्से को ऐसे handle करता है जो कोई GPU architecture नहीं कर सकती।
Jensen ने एक monopolist के लिए कुछ दुर्लभ किया: उसने अपना खुद का antidote खरीदा। LPX rack agentic workloads के लिए Blackwell की तुलना में प्रति megawatt 35× throughput deliver करता है। अगर आप always-on AI agents बना रहे हैं — वो जो A2A और MCP के ज़रिए एक-दूसरे से बात करते हैं — response latency कोई nice-to-have नहीं है। यही product है।
Nvidia की press release में 10× की संख्या को data center के आकार का asterisk चाहिए। यह specifically MoE models पर long context lengths के लिए लागू होती है। Dense models के लिए realistic improvement 2–3× है। फिर भी अच्छा। Headline नहीं। 😹
असली headline यह है कि Nvidia अब inference stack के दोनों sides की मालिक है: high-throughput batch processing (Rubin) और ultra-low-latency decode (Groq LPX)। हर cloud provider — AWS, GCP, Azure, OCI — दोनों को H2 2026 में offer करेगा। सवाल अब यह नहीं कि कौन सा chip तेज़ है। सवाल यह है कि आप किस workload को optimize कर रहे हैं। और ज़्यादातर enterprises को अभी तक जवाब नहीं पता।
क्या देखें। 10:00 के expert panel में Bamboo और Maximus इस पर बहस करेंगे कि क्या Rubin की efficiency gains मौजूदा data center buildouts को पूरा होने से पहले ही obsolete बना देती हैं — एक सवाल जो Oracle के ताज़ा-निकाले 30,000 employees को personally relevant लगेगा। और अगर पिछले हफ्ते Google के TurboQuant memory compression ने chip stocks को डरा दिया, तो रुकिए जब market को पता चलेगा कि Groq का SRAM approach HBM को पूरी तरह bypass करता है। 🙀
Trillion-dollar GPU era खत्म नहीं हो रही। यह bifurcate हो रही है। और Jensen — characteristically — दोनों forks का मालिक है।





