Демо вашого AI-агента пройшло на ура. Він відповідав на питання, викликав tools — невеликі програми, які AI запускає самостійно, щоб дістати дані або виконати дії — і справлявся з крайніми випадками. Рахунок за API склав $47. Бос загорівся. PM почав писати роадмап. CEO згадав це на раді директорів.
А тепер розгорніть того самого агента в продакшн на 10 000 юзерів — і дивіться, як $47 перетворюються на цифру, від якої ваш фінансовий директор потягнеться до пляшки. 💰
Бюджет, який ніхто не показує на Demo Day
Q1 2026 приніс хвилю запусків агентів — Anthropic випустив корпоративні інтеграції Claude, OpenAI розкатав Operator для платних команд, Google запхав агентів Gemini в Workspace. Кожен вендор продавав одну й ту саму казку: підключи API, дивись як працює. Ніхто не починав з рахунку.
Давайте розберемо, куди реально йдуть гроші, коли AI-агент — автономна програма на базі LLM (великої мовної моделі, мозку Claude та ChatGPT) — переїжджає з гарненького демо в реальний продукт.
За опитуванням Mavvrik і Benchmarkit за Q3 2025, 85% організацій помиляються з оцінкою витрат на AI більш ніж на 10%. Майже чверть — промахуються на понад 50%. Це не похибка округлення — це різниця між життєздатним продуктом і бюджетною пожежею.
Ось розбивка, яку я постійно бачу, копаючись у продакшн-деплоях: 🔍
Витрати на LLM API (40-60% загальних витрат). API — труба, через яку ваш додаток відправляє промпти в Claude чи GPT і отримує відповіді — тарифікується за токени (шматочки слів, які AI зчитує, приблизно ¾ англійського слова). Один виклик Claude Opus 4.6 з повним контекстним вікном — скільки тексту AI може 'бачити' одночасно — коштує $5 за мільйон вхідних токенів згідно зі сторінкою цін Anthropic. Помножте це на тисячі юзерів, що запускають багатокрокові воркфлоу з ретраями, і отримаєте $10 000–50 000/місяць для додатку із середнім трафіком. І це до того, як хтось почне оптимізувати промпти.
Підготовка даних (40-60% початкових витрат). Вашому агенту потрібні знання. Ці знання живуть у документах, базах даних та API, які треба вичистити, порізати на чанки, перетворити в ембедінги — конвертувати текст у числа, які пошукова система зможе зіставити — та проіндексувати. Це не одноразова робота. Дані змінюються, схеми еволюціонують, а ваш RAG-пайплайн (retrieval-augmented generation — система, що підкидає релевантні документи AI перед відповіддю) потребує постійного догляду. Закладайте $25 000–100 000 для будь-якої нетривіальної системи.
Інтеграції (20-35% зверху). Ваш агент спілкується з CRM, базою даних, тікет-системою, шаром авторизації. Кожна інтеграція — це поверхня для багів, залежність, яка може впасти о третій ночі, і периметр безпеки, який треба аудитувати.
Сюрприз під назвою governance (20-30% до бюджету). Найпідступніша стаття витрат. Агент виїхав у прод, і тут юристи питають про конфіденційність даних. Безпечники — про prompt injection, коли хтось обманом змушує AI ігнорувати свої інструкції. Комплаєнс хоче аудит-трейли. Прикручувати все це до системи, яку ніхто для цього не проєктував, завжди коштує дорожче, ніж закласти від початку. І це завжди трапляється посеред проєкту, бо ніхто не запрошує юристів на демо прототипу.
Саме обслуговування перевищує вартість розробки вже протягом першого року. Міграції версій моделей, патчі безпеки, масштабування та постійне тюнінгування, коли ваш агент починає галюцинувати — впевнено видавати неправильні відповіді — у креативних нових способах.
Опитування Deloitte за листопад 2025 показало, що лише 11% організацій реально запускають AI-агентів у продакшні. Решта застрягли в пілотах — команди кинули їх після перевитрат або тихенько поклали на полицю.
Інший бік таблички
Ці витрати реальні, але потребують контексту. Команда саппорту з 20 людей коштує $800K–1.2M на рік тільки на зарплати. Якщо AI-агент закриває 60% тікетів за $200K/рік з усіма витратами — це все одно величезна перемога.
Тренд цін агресивно падає. Anthropic Haiku 4.5 коштує $1 за мільйон вхідних токенів — на 80% дешевше за Opus (та сама сторінка цін). Розумна архітектура — роутинг простих запитів на дешевші моделі, кешування типових відповідей, стиснення контексту — може зрізати витрати на LLM на 70-90%. Команди, які палять бюджет, юзають Opus для всього, бо їм ліньки нормально писати промпти.
А ті 11% продакшну? Рік тому було 4%. Відсоток невдач високий, бо це нова категорія. Ранні показники провалів виглядали так само для міграції в хмару, мобільних додатків і кожного іншого технологічного зсуву, який згодом став нормою.
Що я кажу кожному, хто питає 🦝
Помножте оцінку API-витрат на три. Що б ви не нарахували з прототипу — множте на три. Юзери будуть використовувати агента способами, які ви ніколи не тестували. Крайні випадки вимагають більше контексту. Споживання токенів зростає, ніколи не падає.
Починайте з найдешевшої моделі, яка працює. Haiku для простого роутингу. Sonnet для більшості задач. Opus — тільки для складних проблем. Model routing — автоматичний вибір моделі для кожного запиту — це різниця між $5K/місяць і $50K/місяць при тому самому трафіку. ⚡
Закладайте бюджет на нудне. Моніторинг, логування, rate limiting, обробка фолбеків, алерти витрат. Агент без контролю витрат — це кредитка, прив'язана до генератора випадкових чисел.
Плануйте governance з першого дня. Не з 90-го дня, не 'після запуску', не 'коли юристи напишуть того листа'. З першого дня.
AI-агенти в продакшні — дорогі. Просто дешевші за альтернативи — якщо закладати бюджет на реальність, а не на демо. Компанії, які провалюються, будують бізнес-кейс на тому запуску прототипу за $47. Компанії, які виграють, дивляться на реальні цифри і кажуть: 'так, це коштує $30K/місяць, і воно все одно того варте'.
Знайте різницю до того, як шипнете. 🚀





