Число, якого немає в жодному дашборді AI-агентів, важливіше за будь-яке число, яке вендори вирішили туди додати: чи агент взагалі зробив те, що ви просили?

Цього тижня ще дві платформи поповнили клуб метрик споживання. 10 квітня GitHub додав лічильники активних користувачів свого хмарного агента. 8 квітня Anthropic запустив Managed Agents за $0.08 за сесію-годину — з тарифікацією до мілісекунди, токени окремо. До них приєднались Google Vertex AI Agent Engine, який тарифікує по vCPU-секундах з моменту виходу в GA минулого року, та OpenAI Codex, чия метрика "Success Rate" вимірює, чи завершився API-виклик — а не чи працює код.

Це як оцінювати продуктивність хірурга за кількістю скальпелів, які він узяв у руки.

Чотири великі платформи. Нуль показників успішності задач. Нуль оцінок якості. Нуль трекінгу того, чи людині довелося переробляти роботу агента.

Чому ніхто не вимірює те, що має значення

Не тому, що це нерозв'язна задача. Тому що це дорого, соромно й погано для квартальних звітів.

Чатбот дає одну відповідь — і ви одразу її оцінюєте. Агент виконує ланцюжок із десяти кроків: читає тікет, шукає в доках, пише код, створює PR, смикає Slack. Кожен крок може тихо зафейлитись. Фінальний результат вимагає експертизи для оцінки. Вендори навіть не визначили, що означає "успіх" для агента, не кажучи вже про його вимірювання.

А дослідження, які існують — це не те, що ви б показали на слайді інвесторам.

Розрив надійності, про який ніхто не рекламує

24 лютого дослідники Принстона Капур і Нараянан опублікували дослідження, протестувавши 14 AI-моделей на 500 бенчмарк-прогонах. Їхній висновок: надійність агентів — здатність виконувати одну й ту саму задачу правильно кожного разу — зростала вдвічі повільніше, ніж сира здатність на загальних задачах. На задачах клієнтського сервісу надійність зростала лише на 14% від темпу зростання точності. Їхній вердикт: "Агенти не вміють розуміти, коли вони помиляються."

Це те число, яке має бути на кожному дашборді — і якого там немає.

AI-дослідник Андрій Карпаті — співзасновник OpenAI, колишній керівник AI в Tesla — порахував, що це означає на практиці, у своєму фреймворку "March of Nines" у листопаді 2025: якщо кожен крок у десятикроковому воркфлоу успішний на 90%, наскрізний успіх падає до 35%. А тепер уявіть, що цей агент працює автономно о третій ночі, тарифікується щогодини, і ніхто не дивиться.

Підтверджувальні дані продовжують накопичуватись. Аналіз CodeRabbit від 19 березня дослідив 470 GitHub PR і виявив, що код, написаний AI, генерує в 1.7 разів більше проблем на PR, ніж людський код, а вразливості безпеки — у 2.74 рази частіше. Опитування LangChain від 25 березня серед 1 340 практиків: 57% вже запустили агентів у продакшен, але лише 52% оцінюють результати постфактум, і тільки 37% моніторять якість під час роботи агентів наживо.

Більше половини індустрії задеплоїли агентів до того, як розібралися, як перевірити, чи вони працюють. Сміливо.

Слідуй за грошима

Тарифікація за використання приносить однаковий прибуток і з трьохгодинної зафейленої сесії, і з успішної. Вендор, який бере $0.08 за сесію-годину, має нуль фінансової мотивації допомогти вам дізнатися, що 40% тих сесій видають сміття. Вимірювання результатів активно б зашкодило метриці, за якою стежить Волл-стріт: дохід на клієнта.

Сторонні інструменти спостережуваності — LangSmith, Braintrust, Helicone — намагаються заповнити прогалину. Але четвірка найбільших агентських платформ не шіпає нічого вбудованого. Ви отримуєте спідометр без пункту призначення.

Що це означає для вас

Якщо ваша команда оцінює автономних агентів — а за статистикою, так і є — вимагайте одне число, якого уникає кожен вендор: який відсоток задач ваш агент завершує правильно без втручання людини?

Якщо вони не можуть відповісти — ви купуєте не інструмент підвищення продуктивності. Ви купуєте лічильник, прикручений до підкидання монетки.

Економіка агентів стартувала з рахунком-фактурою там, де потрібен був скоркард. Поки хтось не побудує цей скоркард, ви — той шар якості, який платформа не доставила. Плануйте бюджет відповідно.