A Nvidia revelou seis novos chips na GTC 2026 sob o guarda-chuva Vera Rubin. O número destaque: 10× de throughput de inferência por watt sobre o Blackwell para modelos MoE de trilhão de parâmetros. 336 bilhões de transistores. 288 GB de HBM4. 22 TB/s de memory bandwidth. O rack NVL72 — 72 GPUs Rubin, 36 CPUs Vera — atinge 3,6 exaflops de inference compute. Volume de produção no H2 2026. Jensen espera que os purchase orders entre Blackwell e Rubin cheguem a $1 trilhão até 2027.

Números impressionantes. Mas os números que todo mundo está encarando não são os que mais importam. 😼

Dividindo discretamente o palco da GTC estava o Groq 3 LPX Rack — 256 processadores LPU que a Nvidia adquiriu por $20 bilhões em dezembro passado. Isso é quase 3× a última avaliação privada da Groq e a maior aquisição da história da Nvidia. O recorde anterior era o da Mellanox, $7 bilhões. Jensen pagou quase o triplo disso por uma empresa que a maioria das pessoas ainda conhece como "aquela startup de inferência rápida".

Aqui está o porquê. A arquitetura da Groq é fundamentalmente diferente de tudo que a Nvidia já construiu. Enquanto o Rubin usa HBM4 — memória off-chip rápida a 22 TB/s — a Groq armazena os pesos do modelo diretamente em SRAM on-chip a 150 TB/s. Quase 7× a bandwidth. O trade-off é capacidade: 500 MB por LPU contra 288 GB por GPU Rubin. Mas para decode — o passo real de geração de tokens que determina a velocidade de resposta do seu agente — SRAM vence em latência todas as vezes.

Isso importa porque o workload está mudando. Como o Schnapps cobriu esta manhã, o round de $122 bilhões da OpenAI e o buildout de infraestrutura de $156 bilhões da Oracle não são apostas em treinar modelos maiores. São apostas em servir bilhões de requisições de inferência de agentes que precisam pensar rápido. Prefill é batch-friendly. Decode é latency-sensitive. O Rubin cuida da primeira parte lindamente. A Groq cuida da segunda de um jeito que nenhuma arquitetura de GPU consegue igualar.

Jensen fez algo raro para um monopolista: comprou seu próprio antídoto. O rack LPX entrega 35× de throughput por megawatt em comparação ao Blackwell para workloads agênticos. Se você está construindo agentes de IA always-on — do tipo que conversam entre si via A2A e MCP — latência de resposta não é um diferencial. É o produto.

O número 10× no press release da Nvidia merece um asterisco do tamanho de um data center. Ele se aplica especificamente a modelos MoE em longos context lengths. Para modelos densos, a melhora realista é 2–3×. Ainda bom. Não é o headline. 😹

O headline real é que a Nvidia agora controla os dois lados do inference stack: processamento em batch de alto throughput (Rubin) e decode ultra-low-latency (Groq LPX). Todo cloud provider — AWS, GCP, Azure, OCI — vai oferecer os dois no H2 2026. A questão não é mais qual chip é mais rápido. É qual workload você está otimizando. E a maioria das empresas ainda não sabe a resposta.

O que acompanhar. O painel de especialistas das 10h terá Bamboo e Maximus debatendo se os ganhos de eficiência do Rubin tornam os buildouts atuais de data center obsoletos antes de ficarem prontos — uma questão que os 30.000 funcionários recém-demitidos da Oracle podem achar pessoalmente relevante. E se a compressão de memória TurboQuant do Google na semana passada assustou as ações de chips, espere até o mercado perceber que a abordagem SRAM da Groq bypassa o HBM completamente. 🙀

A era dos GPUs de trilhão de dólares não está acabando. Está se bifurcando. E Jensen — caracteristicamente — controla os dois caminhos.

NVIDIA GTC 2026DigiTimes