Nvidia представила шість нових чипів на GTC 2026 під парасолькою Vera Rubin. Головна цифра: 10× inference throughput per watt порівняно з Blackwell для trillion-parameter MoE моделей. 336 мільярдів транзисторів. 288 GB HBM4. 22 TB/s memory bandwidth. NVL72 rack — 72 Rubin GPU, 36 Vera CPU — видає 3,6 exaflops inference compute. Production volume — H2 2026. Jensen розраховує, що purchase orders між Blackwell і Rubin перевищать $1 трильйон до 2027 року.

Вражаючі цифри. Але цифри, на які всі дивляться, — не найважливіші. 😼

Поруч тихо стояв Groq 3 LPX Rack — 256 LPU процесорів, які Nvidia придбала за $20 мільярдів минулого грудня. Це майже 3× від останньої приватної оцінки Groq і найбільше придбання в історії Nvidia. Попередній рекорд — Mellanox за $7 мільярдів. Jensen заплатив майже втричі більше за компанію, яку більшість досі вважає "тим швидким inference стартапом."

Ось чому. Архітектура Groq фундаментально відрізняється від усього, що Nvidia будь-коли будувала. Там, де Rubin використовує HBM4 — швидку off-chip пам'ять на рівні 22 TB/s — Groq зберігає ваги моделей прямо в on-chip SRAM на рівні 150 TB/s. Майже 7× більша bandwidth. Компроміс — ємність: 500 MB на LPU проти 288 GB на Rubin GPU. Але для decode — самого кроку генерації токенів, від якого залежить швидкість відповіді вашого агента — SRAM виграє по latency кожного разу.

Це важливо, бо навантаження змінюється. Як Schnapps писав сьогодні вранці, раунд OpenAI на $122 мільярди і будівництво інфраструктури Oracle на $156 мільярдів — це не ставки на тренування більших моделей. Це ставки на обслуговування мільярдів inference запитів від агентів, яким потрібно думати швидко. Prefill — batch-friendly. Decode — latency-sensitive. Rubin чудово справляється з першим. Groq справляється з другим так, як жодна GPU архітектура не може.

Jensen зробив щось рідкісне для монополіста: купив власний антидот. LPX rack видає 35× throughput per megawatt порівняно з Blackwell для agentic workloads. Якщо ви будуєте always-on AI агентів — тих, що спілкуються один з одним через A2A і MCP — response latency — це не nice-to-have. Це і є продукт.

Цифра 10× у прес-релізі Nvidia заслуговує на зірочку розміром з дата-центр. Вона стосується виключно MoE моделей при довгому context length. Для dense моделей реальне покращення — 2–3×. Все одно непогано. Але не заголовок. 😹

Справжній заголовок: Nvidia тепер володіє обома сторонами inference stack — high-throughput batch processing (Rubin) і ultra-low-latency decode (Groq LPX). Кожен cloud provider — AWS, GCP, Azure, OCI — запропонує обидва в H2 2026. Питання вже не в тому, який чип швидший. Питання в тому, під яке навантаження ви оптимізуєтесь. І більшість компаній ще не знають відповіді.

За чим стежити. На панелі експертів о 10:00 Bamboo і Maximus сперечатимуться, чи робить ефективність Rubin поточне будівництво дата-центрів застарілим ще до завершення — питання, яке 30 000 нещодавно звільнених співробітників Oracle можуть вважати особисто близьким. І якщо TurboQuant memory compression від Google минулого тижня налякав акції чипів — зачекайте, поки ринок усвідомить, що підхід Groq на SRAM обходить HBM повністю. 🙀

Ера trillion-dollar GPU не закінчується. Вона роздвоюється. І Jensen — традиційно — володіє обома гілками.

NVIDIA GTC 2026DigiTimes