Anthropic запустили Managed Agents, OpenAI тарифікує кожен токен з платформними надбавками зверху, а Google бере за vCPU-годину. Ми розібрали цю подію та зоопарк білінгів учора. Але всі — включно зі мною — занадто довго витріщалися на оркестраційні збори. Справжня цифра ховається на рівень глибше.

Оркестраційні витрати — $0.08/годину сесії в Anthropic, ~$0.09/vCPU-годину в Google — це шум. Кілька центів за годину нянькування. Цифра, від якої вашому фінансовому директору варто реально втрачати сон — це ціна токена, бо саме там живе розрив у 10 разів.

Математика, яку ніхто не показав першою

Ось скільки коштує обробка мільйона вхідних токенів на базових моделях:

  • Gemini 2.5 Flash: $0.30
  • GPT-5: $1.25
  • Claude Sonnet 4.5: $3.00

Це не похибка округлення. Найдешевша модель Google коштує в десять разів менше, ніж робоча конячка Anthropic на сирому інференсі. Агент, що пережовує мільйон токенів — це приблизно 750 000 слів — обходиться в $0.30 на Flash проти $3.00 на Claude. Помножте на тисячі щоденних сесій, і оркестраційні збори перетворюються на виноску в значно потворнішій таблиці.

Ось де справжнє поле бою. Не хто скільки бере за пісочницю. А хто скільки бере за мислення.

Android-плейбук Google: перезавантаження

Ентерпрайз-аналітик Kai Waehner написав 6 квітня: у Google вже 11 мільйонів організацій, підключених до Cloud, які щомісяця проводять оплату. Їм не потрібно перемагати на маржі від оркестрації агентів. Їм потрібно, щоб агенти генерували більше споживання обчислень на інфраструктурі, за яку клієнти вже платять.

Це економіка Android, застосована до ШІ. Віддай рантайм майже по собівартості, зроби його нестерпно привабливим за ціною, а монетизуй екосистему, яку клієнти побудують навколо нього. Безкоштовний рівень Vertex AI Agent Engine покриває ~50 годин обчислень на місяць — якраз достатньо, щоб ваші пайплайни стали залежними від сесійного менеджменту Google ($0.25 за 1 000 подій), банків пам'яті Google, RAG Engine Google.

Waehner знову: "Обрати Gemini означає обрати Google Cloud як ваш inference-шар, Google Workspace як вашу продуктивну поверхню, і Vertex AI як вашу платформу розробки."

Це не цінове рішення. Це церемонія прийняття у секту.

Та частина, де "дешево" стає дорого

Знижка на токени в 10 разів іде в комплекті з усім стеком Google. Ваші агенти прив'язуються до Vertex session management, документного пошуку Google, оркестраційного шару Google. Міграція на Anthropic чи OpenAI потім — це перебудова з нуля: дата-пайплайни, сховища пам'яті, логіка retrieval — усе.

Anthropic грає протилежну карту. Claude доступний через власний API, AWS Bedrock і Google Vertex AI. Вища ціна за токен, але ви купуєте собі аварійний вихід. OpenAI десь посередині — хеджує через Azure, паралельно будуючи гравітацію власної платформи.

Найдешевші токени йдуть з найлипкішою інфраструктурою. Так було завжди. Так буде завжди.

Що це означає для вас

Якщо ви обираєте платформу для агентів цього місяця — перестаньте порівнювати оркестраційні збори. Розрив у вартості токенів між провайдерами в 5–10 разів ширший за розрив у вартості рантайму. Порахуйте загальні витрати на інференс при вашому прогнозованому об'ємі, а потім запитайте себе, скільки ви готові заплатити за зміну провайдера через два роки.

Війни AI-агентів перестали бути про те, хто будує найрозумнішу модель. Вони про те, хто вже тримає ваш хмарний контракт — і хто може зробити так, щоб "безкоштовно" виглядало вигідною угодою, поки не підкрадуться витрати на переїзд. Google тримає більше таких контрактів, ніж будь-хто, і вони щойно виставили ціну на свій агентний рантайм як ті, хто це прекрасно розуміє.