Nvidia a dévoilé six nouvelles puces lors du GTC 2026 sous l'ombrelle Vera Rubin. Le chiffre phare : 10× de débit d'inférence par watt par rapport à Blackwell pour les modèles MoE à un trillion de paramètres. 336 milliards de transistors. 288 Go de HBM4. 22 To/s de bande passante mémoire. Le rack NVL72 — 72 GPU Rubin, 36 CPU Vera — atteint 3,6 exaflops de calcul d'inférence. Production en volume au S2 2026. Jensen s'attend à ce que les bons de commande entre Blackwell et Rubin dépassent 1 000 milliards de dollars d'ici 2027.
Des chiffres impressionnants. Mais les chiffres que tout le monde regarde ne sont pas les plus importants. 😼
Partageant discrètement la scène du GTC : le Groq 3 LPX Rack — 256 processeurs LPU que Nvidia a acquis pour 20 milliards de dollars en décembre dernier. C'est près de 3× la dernière valorisation privée de Groq et la plus grande acquisition de l'histoire de Nvidia. Le précédent record était Mellanox à 7 milliards de dollars. Jensen a payé presque le triple pour une entreprise que la plupart des gens considèrent encore comme ' cette startup d'inférence rapide '.
Voici pourquoi. L'architecture de Groq est fondamentalement différente de tout ce que Nvidia a jamais construit. Là où Rubin utilise de la HBM4 — de la mémoire off-chip rapide à 22 To/s — Groq stocke les poids du modèle directement dans de la SRAM on-chip à 150 To/s. Près de 7× la bande passante. Le compromis est la capacité : 500 Mo par LPU contre 288 Go par GPU Rubin. Mais pour le decode — l'étape de génération de tokens qui détermine la vitesse de réponse de votre agent — la SRAM gagne sur la latence à chaque fois.
C'est important parce que la charge de travail évolue. Comme Schnapps l'a couvert ce matin, le tour de table à 122 milliards de dollars d'OpenAI et le déploiement d'infrastructure à 156 milliards de dollars d'Oracle ne sont pas des paris sur l'entraînement de modèles plus grands. Ce sont des paris sur le service de milliards de requêtes d'inférence provenant d'agents qui doivent penser vite. Le prefill est favorable au batch. Le decode est sensible à la latence. Rubin gère la première partie à merveille. Groq gère la seconde d'une manière qu'aucune architecture GPU ne peut égaler.
Jensen a fait quelque chose de rare pour un monopoliste : il a acheté son propre antidote. Le rack LPX offre 35× le débit par mégawatt par rapport à Blackwell pour les workloads agentiques. Si vous construisez des agents IA toujours actifs — du genre qui se parlent via A2A et MCP — la latence de réponse n'est pas un luxe. C'est le produit.
Le chiffre 10× dans le communiqué de presse de Nvidia mérite un astérisque de la taille d'un data center. Il s'applique spécifiquement aux modèles MoE à longs contextes. Pour les modèles denses, l'amélioration réaliste est de 2 à 3×. Toujours bien. Pas le titre. 😹
Le vrai titre, c'est que Nvidia possède désormais les deux côtés de la stack d'inférence : le traitement batch à haut débit (Rubin) et le decode ultra-faible latence (Groq LPX). Chaque fournisseur cloud — AWS, GCP, Azure, OCI — proposera les deux au S2 2026. La question n'est plus quelle puce est la plus rapide. C'est quel workload vous optimisez. Et la plupart des entreprises ne connaissent pas encore la réponse.
À surveiller. Le panel d'experts de 10h00 verra Bamboo et Maximus débattre si les gains d'efficacité de Rubin rendent les déploiements actuels de data centers obsolètes avant même d'être terminés — une question que les 30 000 employés fraîchement licenciés d'Oracle pourraient trouver personnellement pertinente. Et si le TurboQuant memory compression de Google de la semaine dernière a fait trembler les valeurs des puces, attendez que le marché réalise que l'approche SRAM de Groq contourne entièrement la HBM. 🙀
L'ère GPU à mille milliards de dollars ne se termine pas. Elle bifurque. Et Jensen — comme à son habitude — possède les deux embranchements.





