Надійність ланцюжків AI-агентів ніхто не постачає. Ось як зібрати самому.

Ви підключили свого AI-агента до п'яти інструментів — Slack, GitHub, Jira, база даних, пошта. Кожен працює. Протестували окремо, отримали зелені лампочки по всій дошці, дали собі п'ять. Дашборд каже 95% success rate. Життя вдалося.

Тільки от ваш реальний воркфлоу — прочитати базу, створити тікет, оновити репо, кинути в Slack, надіслати підсумок — тихенько губить м'яч раз-два на день. Жоден алерт не спрацьовує. Жоден дашборд не червоніє. Агент просто... не фінішує. А ви сидите й думаєте — це ви з глузду з'їхали, чи машина вас газлайтить.

Дірка, яку ніхто не закрив

Google Cloud Next завершився 22 квітня купою анонсів про агентів. За три дні до того, 17 квітня, AWS запустив свій Agent Registry в AgentCore. А ще раніше, 8 квітня, Anthropic випустив managed agents. Усі троє тепер пропонують моніторинг агентів. Усі троє вимірюють метрики по кожному інструменту окремо — латенсі, error rates, кількість запитів через MCP (Model Context Protocol — універсальний стандарт підключення AI-інструментів, як USB, тільки для даних). Ніхто не вимірює надійність складеного ланцюжка: ймовірність того, що ваш багатокроковий воркфлоу реально добігає до кінця.

П'ять кроків по 95% кожен? Це 77,4% end-to-end. Просте множення, яке ваш дашборд відмовляється робити.

Знати цифру — це крок перший. Виправити — це вже справжня робота. То що фреймворки реально дають?

Що фреймворки реально пропонують

LangGraph підійшов найближче. Його класи Checkpointer зберігають стан на кожному вузлі графа. Четвертий крок упав — відновлюєтесь із третього, а не з нуля. Справжня інфраструктура. Підступ: весь ваш агент має бути state graph. Натягнути це на існуючого агента — значить переписати його.

CrewAI дає вам max_retry_limit на кожну задачу і callback hooks. Це retry-логіка — той самий інструмент, той самий інпут, спробуй ще раз. Якщо фейл прилетів від кривої відповіді MCP-сервера, повторювати те саме — це класичне визначення божевілля.

Google ADK, анонсований на Cloud Next 22 квітня, має session-level state management. Їхній шар observability — найпросунутіший із трьох — все одно рендерить трейси по кожному виклику. Ви бачите латенсі окремих MCP-викликів. Ви не бачите: "цей ланцюжок із п'яти викликів завершувався 77% разів цього тижня".

Managed agents від Anthropic трекають статус сесії, тривалість і вартість. Корисно для білінгу. Марно для надійності ланцюжків.

Відсутній примітив

Плейбук у Google Cloud Community, опублікований 9 березня, документує патерн, який ніхто не постачає з коробки: step-level checkpointing — зберігати результат кожного кроку, щоб можна було відновити ланцюжок з середини. LangGraph це робить. Решта: пишіть свій persistence layer.

Плейбук також покриває circuit breakers, fallback routing та інші патерни мікросервісів, адаптовані для агентів. Корисні референси, але справжня дірка вище по стеку: chain-level SLO. "Цей воркфлоу мусить завершуватися end-to-end 95% часу". Жодна платформа не дає цю метрику. Ви будуєте її самі: кастомна телеметрія, time-series DB і власні правила алертингу.

І все це — справжня інженерна робота поверх платформ, які й так беруть із вас гроші. Anthropic, наприклад, $0.08 за session-hour.

Що робити в понеділок

Обирайте фреймворк із нативним checkpointing. Якщо починаєте з нуля — state persistence у LangGraph найменш поганий варіант. Якщо агенти вже крутяться — додайте step-level збереження до трьох найкритичніших ланцюжків перед тим, як підключати ще один MCP-сервер.

Інструментуйте успішність на рівні ланцюжка. Не по інструменту — по воркфлоу. Логуйте один boolean: ланцюжок завершився? Агрегуйте за тиждень. Цифра вам не сподобається, зате вона буде.

Тримайте ланцюжки короткими. Три кроки, не десять. Кожен додатковий крок множить ймовірність збою.

Справжня дірка в інфраструктурі

Наступний реально значущий апгрейд у стеку агентів — це не розумніша модель і не швидший інструмент. Це фреймворк, який ставиться до надійності складених ланцюжків так само, як бази даних ставляться до гарантій транзакцій — як до first-class примітиву, а не DIY-проєкту. Checkpointing у LangGraph натякає на це майбутнє. Session management у Google ADK кивають у тому ж напрямку. Решта продають вам міцність окремих ланок і сподіваються, що ви ніколи не смикнете за ланцюг.

Надійність ланцюжків AI-агентів ніхто не постачає. Ось як зібрати самому.

Дірка, яку ніхто не закрив

Що фреймворки реально пропонують

Відсутній примітив

Що робити в понеділок

Справжня дірка в інфраструктурі

Читай далі

Роадмап MCP на 2026 рік має чотири пріоритети. Обробки помилок серед них немає

Кожен вендор побудував кімнату. Ніхто не побудував коридор

Твій AI-агент впав на четвертому кроці. Що далі?

Перший MCP-сервер на Python: 40 рядків вiд людини-копiпасти до ШI, що бачить вашi данi