Ви дивитесь новини про ШІ і бачите знайомий патерн: більші кластери, більше GPU, черговий стомільярдний бюджет. Тренування — процес, під час якого модель вивчає все, що знає — домінує в заголовках. Загальноприйнята мудрість: хто натренує найбільшу модель, той переможе.

Але економіка вже змістилась під цим припущенням.

Квітень зробив структурні зміни неможливими для ігнорування. 2 квітня OpenAI перевів Codex на потокенну тарифікацію (токени — фрагменти слів, які читає ШІ, приблизно 1–2 склади української). 8 квітня Anthropic запустив Managed Agents за $0.08 на годину сесії. Обидва рухи йшли слідом за переходом Google Vertex AI на посекундну тарифікацію обчислень у лютому — сигнал, який тоді виглядав інкрементальним, а зараз читається як структурний. Три компанії, три формати, один напрямок: inference compute — обчислювальна потужність, яка витрачається щоразу, коли ШІ думає, пише або діє — стала домінуючою статтею витрат у індустрії.

Тренування frontier-моделі коштує мільярди, але відбувається один раз. Inference відбувається щосекунди. Станом на 27 лютого ChatGPT обробляв понад 2 мільярди запитів на день від 900 мільйонів щотижневих користувачів — цифра, яка через сім тижнів майже напевно вже більша. Агенти примножують навантаження: чат-відповідь завершується за мілісекунди, агентська сесія працює годинами. Прогноз Deloitte TMT Predictions 2026 (опублікований у грудні 2025) передбачав, що inference цього року поглинатиме дві третини всіх ШІ-обчислень — проти однієї третини у 2023-му. Квітневі цінові сигнали підтверджують цю траєкторію.

Конкурентний рів тепер живе в serving stack, а не в тренувальному кластері. 4 лютого Сундар Пічаї на дзвінку за результатами Q4 Alphabet розкрив, що Google знизив вартість обслуговування Gemini на 78% завдяки оптимізації моделі та кастомним TPU (спеціалізовані inference-чіпи Google). Цей розрив ефективності задає ціни, які конкуренти не можуть повторити: Gemini 2.5 Flash за $0.15 на мільйон вхідних токенів проти Sonnet 4.6 від Anthropic за $3.00. Різниця у 20 разів, зумовлена кремнієм, а не якістю моделі. Зниження Google прийшло не від більшого тренувального кластера. Воно прийшло від кастомного inference-заліза, дистиляції та оптимізації serving stack — тієї нудної сантехніки, яка визначає реальну вартість API-виклику.

Але дешевший inference має приховану ціну. Як застеріг Gartner в аналізі від 14 березня щодо структури витрат на ШІ: "Не плутайте здешевлення масових токенів з демократизацією frontier-мислення." Дешеві токени приходять від дистильованих моделей — полегшених версій, які міняють інтелект на швидкість. Flash — це не Opus. Оптимізація inference природно штовхає до "достатньо хорошого" ШІ, а не до найрозумнішого.

Ринок уже відображає цей розкол. Дані, представлені на HumanX 2026 (25–27 березня), показали: бюджети підприємств на ШІ зросли з $1.2M до $7M між 2024 та 2026 роками — попри падіння цін на токени у 280 разів — тому що команди для високовартісних задач продовжують обирати більш потужні моделі. Дешевий inference обробляє обсяг. Дорогий inference обробляє цінність. Обидва ринки зростають, але винагороджують абсолютно різні інфраструктурні ставки.

І ось тут неефективний розподіл капіталу стає особливо гострим. Хмарні провайдери виділили приблизно $660–690 мільярдів на ШІ-інфраструктуру на 2026 рік, більшість — під тренувальні потужності, тобто залізо для виробництва наступного покоління моделей. Але тренувальний ран за $5 мільярдів створює модель, яка обслуговує місяцями або роками. Inference-навантаження, яке вона генерує, працює щосекунди й накопичується, коли агенти подовжують сесії з мілісекунд до годин. Компанії, які раніше інвестували в inference-специфічний кремній, тепер задають ціни. Компанії, які поставили все на тренувальні мегакластери, мають вражаючі моделі та дорогу юніт-економіку.

Для команд, які сьогодні обирають платформу, це переосмислює рішення. Розрив якості між топовими моделями продовжує звужуватися — Sonnet, GPT-4.1 та Gemini Pro набирають майже однакові бали на стандартних бенчмарках. Розрив вартості inference продовжує розширюватися. Ваш річний рахунок більше залежить від кремнію, на якому працює модель, ніж від самої моделі.

Гонка ШІ-заліза роздвоїлася. Майже $700 мільярдів ідуть на тренувальну інфраструктуру, яка виграє війну, що вже закінчується. Ефективність inference виграє наступну. Більша частина цього капіталу опинилася на хибному боці розколу.