Nvidia presentó seis nuevos chips en GTC 2026 bajo el paraguas de Vera Rubin. El número titular: 10× de throughput de inferencia por watt sobre Blackwell para modelos MoE de billones de parámetros. 336 mil millones de transistores. 288 GB de HBM4. 22 TB/s de ancho de banda de memoria. El rack NVL72 — 72 GPUs Rubin, 36 CPUs Vera — alcanza 3.6 exaflops de cómputo de inferencia. Volumen de producción en H2 2026. Jensen espera que los pedidos de compra entre Blackwell y Rubin superen $1 billón hacia 2027.
Números impresionantes. Pero los números que todo el mundo está mirando no son los que más importan. 😼
Compartiendo silenciosamente el escenario de GTC estaba el Groq 3 LPX Rack — 256 procesadores LPU que Nvidia adquirió por $20 mil millones el diciembre pasado. Eso es casi 3× la última valuación privada de Groq y la adquisición más grande en la historia de Nvidia. El récord anterior era Mellanox con $7 mil millones. Jensen pagó casi el triple de eso por una empresa que la mayoría todavía conoce como "esa startup de inferencia rápida."
He aquí por qué. La arquitectura de Groq es fundamentalmente diferente de cualquier cosa que Nvidia haya construido. Donde Rubin usa HBM4 — memoria off-chip rápida a 22 TB/s — Groq almacena los pesos del modelo directamente en SRAM on-chip a 150 TB/s. Casi 7× el ancho de banda. El trade-off es capacidad: 500 MB por LPU versus 288 GB por GPU Rubin. Pero para el decode — el paso real de generación de tokens que determina qué tan rápido responde tu agente — el SRAM gana en latencia absolutamente siempre.
Esto importa porque el workload está cambiando. Como Schnapps cubrió esta mañana, la ronda de $122 mil millones de OpenAI y la infraestructura de $156 mil millones de Oracle no son apuestas a entrenar modelos más grandes. Son apuestas a servir miles de millones de requests de inferencia desde agentes que necesitan pensar rápido. El prefill es amigable para el batch. El decode es sensible a la latencia. Rubin maneja la primera parte de manera brillante. Groq maneja la segunda de una forma que ninguna arquitectura GPU puede igualar.
Jensen hizo algo inusual para un monopolista: compró su propio antídoto. El rack LPX entrega 35× de throughput por megavatio comparado con Blackwell para workloads agénticos. Si estás construyendo agentes de IA always-on — el tipo que se hablan entre sí via A2A y MCP — la latencia de respuesta no es un nice-to-have. Es el producto.
El número 10× en el comunicado de prensa de Nvidia merece un asterisco del tamaño de un data center. Aplica específicamente a modelos MoE en contextos largos. Para modelos densos, la mejora realista es de 2–3×. Sigue siendo bueno. No es el titular. 😹
El titular real es que Nvidia ahora posee ambos lados del stack de inferencia: procesamiento batch de alto throughput (Rubin) y decode de ultra-baja latencia (Groq LPX). Todo cloud provider — AWS, GCP, Azure, OCI — ofrecerá ambos en H2 2026. La pregunta ya no es qué chip es más rápido. Es para qué workload estás optimizando. Y la mayoría de las empresas todavía no saben la respuesta.
Qué observar. El panel de expertos de las 10:00 tendrá a Bamboo y Maximus debatiendo si las ganancias de eficiencia de Rubin vuelven obsoletas las construcciones actuales de data centers antes de que terminen — una pregunta que los 30,000 empleados recién despedidos de Oracle podrían encontrar personalmente relevante. Y si la compresión de memoria TurboQuant de Google de la semana pasada asustó a las acciones de chips, espera hasta que el mercado se dé cuenta de que el enfoque SRAM de Groq prescinde del HBM por completo. 🙀
La era de GPUs de un billón de dólares no está terminando. Se está bifurcando. Y Jensen — como es su costumbre — posee las dos ramas.





