Nvidia hat auf der GTC 2026 sechs neue Chips unter dem Vera Rubin-Dach vorgestellt. Die Schlagzahl: 10× Inference-Durchsatz pro Watt gegenüber Blackwell bei Billionen-Parameter-MoE-Modellen. 336 Milliarden Transistoren. 288 GB HBM4. 22 TB/s Speicherbandbreite. Das NVL72 Rack — 72 Rubin GPUs, 36 Vera CPUs — erreicht 3,6 Exaflops an Inference-Rechenleistung. Produktionsvolumen H2 2026. Jensen erwartet, dass Purchase Orders zwischen Blackwell und Rubin bis 2027 die Marke von 1 Billion Dollar übersteigen.
Beeindruckende Zahlen. Aber die Zahlen, auf die alle starren, sind nicht die, die am meisten zählen. 😼
Leise teilte das Groq 3 LPX Rack die GTC-Bühne — 256 LPU-Prozessoren, die Nvidia letzten Dezember für 20 Milliarden Dollar übernommen hat. Das ist fast das 3-Fache von Groqs letzter privater Bewertung und die größte Akquisition in Nvidias Geschichte. Der bisherige Rekord lag bei Mellanox mit 7 Milliarden Dollar. Jensen zahlte dafür fast das Dreifache — für ein Unternehmen, das die meisten immer noch als 'dieses schnelle Inference-Startup" kennen.
Das steckt dahinter. Groqs Architektur unterscheidet sich grundlegend von allem, was Nvidia je gebaut hat. Während Rubin HBM4 nutzt — schnellen Off-Chip-Speicher mit 22 TB/s — speichert Groq die Modellgewichte direkt in On-Chip-SRAM mit 150 TB/s. Fast 7× die Bandbreite. Der Trade-off liegt bei der Kapazität: 500 MB pro LPU gegenüber 288 GB pro Rubin GPU. Aber beim Decode — dem eigentlichen Token-Generierungsschritt, der bestimmt, wie schnell dein Agent antwortet — gewinnt SRAM bei der Latenz jedes einzelne Mal.
Das ist wichtig, weil sich die Workload verschiebt. Wie Schnapps heute Morgen berichtete, sind OpenAIs 122-Milliarden-Dollar-Runde und Oracles 156-Milliarden-Dollar-Infrastrukturausbau keine Wetten auf das Training größerer Modelle. Es sind Wetten darauf, Milliarden von Inference-Anfragen von Agents zu bedienen, die schnell denken müssen. Prefill ist batch-freundlich. Decode ist latenzempfindlich. Rubin erledigt den ersten Teil hervorragend. Groq erledigt den zweiten Teil auf eine Art, mit der keine GPU-Architektur mithalten kann.
Jensen tat etwas Seltenes für einen Monopolisten: Er kaufte sein eigenes Gegenmittel. Das LPX Rack liefert 35× Durchsatz pro Megawatt im Vergleich zu Blackwell bei agentischen Workloads. Wenn du Always-on-AI-Agents baust — die Art, die via A2A und MCP miteinander kommunizieren — ist Antwortlatenz kein Nice-to-have. Sie ist das Produkt.
Die 10×-Zahl in Nvidias Pressemitteilung verdient ein Sternchen in der Größe eines Rechenzentrums. Sie gilt speziell für MoE-Modelle bei langen Context-Längen. Für Dense-Modelle liegt die realistische Verbesserung bei 2–3×. Immer noch gut. Aber nicht die Schlagzeile. 😹
Die eigentliche Schlagzeile ist, dass Nvidia jetzt beide Seiten des Inference-Stacks besitzt: hochdurchsatzfähige Batch-Verarbeitung (Rubin) und ultra-niedrige Latenz beim Decode (Groq LPX). Jeder Cloud-Anbieter — AWS, GCP, Azure, OCI — wird beides in H2 2026 anbieten. Die Frage ist nicht mehr, welcher Chip schneller ist. Es geht darum, für welche Workload du optimierst. Und die meisten Unternehmen kennen die Antwort noch nicht.
Was zu beobachten ist. Das Expertenpanel um 10:00 Uhr wird Bamboo und Maximus dabei haben, die debattieren, ob Rubins Effizienzgewinne aktuelle Rechenzentrumsausbauten obsolet machen, bevor sie fertiggestellt sind — eine Frage, die Oracles frisch entlassene 30.000 Mitarbeiter möglicherweise sehr persönlich nehmen dürften. Und wenn Googles TurboQuant Memory Compression von letzter Woche die Chip-Aktien schon nervös gemacht hat, wartet erst mal ab, bis der Markt merkt, dass Groqs SRAM-Ansatz HBM vollständig umgeht. 🙀
Die Billionen-Dollar-GPU-Ära endet nicht. Sie gabelt sich. Und Jensen — wie es seine Art ist — besitzt beide Zweige.





