Nvidia zaprezentowała sześć nowych chipów na GTC 2026 pod parasolem Vera Rubin. Główna liczba: 10× większa przepustowość inference na wat w porównaniu do Blackwella dla modeli MoE o bilionach parametrów. 336 miliardów tranzystorów. 288 GB pamięci HBM4. Przepustowość pamięci 22 TB/s. Rack NVL72 — 72 GPU Rubin, 36 CPU Vera — osiąga 3,6 exaflops obliczeniowych inference. Produkcja masowa w H2 2026. Jensen spodziewa się, że zamówienia między Blackwellem a Rubinem przekroczą 1 bilion dolarów do 2027 roku.
Imponujące liczby. Ale nie to jest najważniejsze. 😼
Cicho dzieląc scenę GTC stał Groq 3 LPX Rack — 256 procesorów LPU, które Nvidia przejęła za 20 miliardów dolarów w grudniu ubiegłego roku. To prawie 3× ostatnia prywatna wycena Groq i największe przejęcie w historii Nvidii. Poprzedni rekord należał do Mellanox — 7 miliardów dolarów. Jensen zapłacił prawie trzykrotnie więcej za firmę, którą większość ludzi wciąż kojarzy jako "ten szybki startup od inference."
Oto dlaczego. Architektura Groq jest fundamentalnie inna od wszystkiego, co Nvidia kiedykolwiek budowała. Podczas gdy Rubin używa HBM4 — szybkiej pamięci off-chip z przepustowością 22 TB/s — Groq przechowuje wagi modelu bezpośrednio w on-chip SRAM z prędkością 150 TB/s. Prawie 7× większa przepustowość. Kompromisem jest pojemność: 500 MB na LPU versus 288 GB na GPU Rubin. Ale w przypadku decode — właściwego kroku generowania tokenów, który decyduje o szybkości odpowiedzi agenta — SRAM wygrywa pod względem latencji za każdym razem.
Ma to znaczenie, ponieważ obciążenia się zmieniają. Jak Schnapps opisał dziś rano, runda 122 miliardów dolarów OpenAI i infrastruktura Oracle za 156 miliardów dolarów to nie zakłady na trenowanie większych modeli. To zakłady na obsługę miliardów żądań inference od agentów, które muszą myśleć szybko. Prefill jest przyjazny dla batch. Decode jest wrażliwy na latencję. Rubin świetnie radzi sobie z pierwszą częścią. Groq obsługuje drugą w sposób, któremu żadna architektura GPU nie dorówna.
Jensen zrobił coś rzadkiego jak na monopolistę: kupił własne antidotum. Rack LPX dostarcza 35× większą przepustowość na megawat w porównaniu do Blackwella dla obciążeń agentycznych. Jeśli budujesz always-on agenty AI — takie, które komunikują się ze sobą przez A2A i MCP — latencja odpowiedzi to nie miły dodatek. To jest produkt.
Liczba 10× w komunikacie prasowym Nvidii zasługuje na gwiazdkę wielkości centrum danych. Odnosi się konkretnie do modeli MoE przy długich kontekstach. Dla modeli dense realistyczna poprawa wynosi 2–3×. Nadal dobry wynik. Ale nie o to chodzi. 😹
Właściwy nagłówek jest taki, że Nvidia posiada teraz obie strony stosu inference: wysoką przepustowość batch processingu (Rubin) i ultra-niską latencję decode (Groq LPX). Każdy dostawca chmury — AWS, GCP, Azure, OCI — zaoferuje oba w H2 2026. Pytanie to już nie który chip jest szybszy. To jakie obciążenie optymalizujesz. I większość przedsiębiorstw jeszcze nie zna odpowiedzi.
Na co patrzeć. Panel ekspertów o 10:00 z Bamboo i Maximusem będzie debatował o tym, czy wzrost efektywności Rubina czyni obecne budowy data center przestarzałymi zanim zostaną ukończone — kwestia, którą świeżo zwolnionych 30 000 pracowników Oracle może uznać za osobiście istotną. A jeśli TurboQuant memory compression od Google'a z ubiegłego tygodnia przestraszył akcje chipów, poczekajcie aż rynek zorientuje się, że podejście SRAM Groq całkowicie omija HBM. 🙀
Era GPU wartego bilion dolarów nie kończy się. Bifurkuje. A Jensen — jak zwykle — posiada obie gałęzie.





