Минулого місяця ви користувались калькулятором цін OpenAI. Вхідні токени — шматки слів, які ШІ читає — заходять, вихідні токени виходять, просте множення. Ваш бюджетний спредшіт виглядав охайно. Навіть відповідально.

А потім прийшов рахунок за квітень — у 4 рази більше за прогноз. Ви не змінювали промпти. Не додавали воркфлоуів. Не збільшували обсяг. То що сталося?

Невидимий лічильник почав крутитися

15–16 квітня OpenAI випустила два великих оновлення: Agents SDK v0.14 з model-native оркестрацією та автономний computer-use режим Codex. Обидва за замовчуванням використовують GPT-5.4 — reasoning-модель. На відміну від класичних моделей, які просто відповідають, reasoning-моделі генерують "thinking tokens" — внутрішні обчислення, де ШІ сперечається сам із собою перед відповіддю. Ви ніколи не бачите ці токени у відповіді. Але вони потрапляють у ваш рахунок як вихідні токени, за цінами вихідних токенів.

Модель автономно вирішує, скільки думати, виходячи зі складності задачі. Тривіальне питання може спалити 200 thinking-токенів. Складне — 10 000. Те саме питання в різні дні? Від 2x до 9.7x різниці, згідно з препринтом від березня 2026 року від Stanford, Berkeley, CMU та Microsoft.

Математика стає огидною

У багатокроковому агентному запуску — де ШІ виконує десятки послідовних дій — ця варіативність множиться. Кожен крок — це свіжий reasoning-бюджет, який ви не можете передбачити чи контролювати. Препринт, що проаналізував 11 872 запити на 8 моделях, виявив, що thinking-токени становлять 80%+ загальних витрат на вихід, а в 21.8% порівнянь моделей нібито дешевша модель насправді коштувала більше — з амплітудою інверсії до 28x. Ви правильно прочитали: бюджетний варіант може коштувати в 28 разів дорожче за преміальний. Прайс-листи на цьому етапі — декоративний елемент.

Реальні дані підтверджують: платформа GrisLabs відстежила 1 127 агентних запусків у березні 2026 і знайшла медіанну вартість $1.22, але 95-й перцентиль — $22.14. Співвідношення 18x між типовим і дорогим запуском, що робить ту саму роботу. Той самий промпт, той самий пайплайн, розкид у 18 разів. Ваш CFO буде в захваті від такого аналізу варіативності.

Стає гірше: вимикач був бутафорією

2 квітня розробники виявили, що GPT-5.4 мовчки ігнорує параметр reasoning_effort="none" у комбінації з токен-бюджетом. Модель повертається до повного reasoning, спалює весь ваш ліміт токенів на невидиме думання і повертає порожній рядок. Ви явно кажете їй "не думай" — а вона думає ще інтенсивніше, а потім виставляє вам рахунок за привілей отримати нічого у відповідь.

OpenAI визнала баг 9 квітня і стверджує, що фікс задеплоїли до 20 квітня — але протягом 18 днів "вимикач" для reasoning був суто театральним. Вісімнадцять днів параметр існував виключно для того, щоб розробники відчували контроль, поки модель робила що хотіла. Вершина UX-дизайну.

API для per-step reasoning-бюджету не існує. Per-run ліміту немає. OpenAI пропонує місячні ліміти витрат на рівні організації — еквівалент кредитного ліміту, коли вам потрібна цінова бирка на кожному товарі.

Для контексту: extended thinking від Anthropic має ту саму структурну непрозорість. Thinking-режим Google Gemini хоча б показує текст reasoning у виводі, тож ви можете бачити, за що платите.

Що це означає для вас

Те, що ви питаєте, більше не контролює вартість вашого агента. Наскільки складним модель приватно вирішить вважати питання — ось що контролює ціну, і це рішення змінюється між ідентичними запитами в різні дні. Кожен автономний запуск — це відкритий рахунок, де модель тримає ручку.

Агентне ціноутворення потребує per-step reasoning-лімітів і прозорих thinking-бюджетів. Поки OpenAI їх не зробить, ставтесь до кожного агентного запуску як до слот-машини з опублікованою таблицею виплат, але без максимальної ставки.