Ви захистили виклики інструментів агента. Відповіді не захистив ніхто.

Ви все зробили правильно. Перевірили свої MCP-сервери (Model Context Protocol — універсальний стандарт підключення для AI-інструментів, щось на кшталт USB, але для даних), заблокували дозволи, зафіксували версії схем, щоб ваш AI-агент — програма, яка самостійно використовує інструменти — викликала лише те, що ви затвердили. Ваша агентська інфраструктура виглядає загартованою для продакшену. Ви спите спокійно.

Даремно.

Бо кожен інструмент, який викликає ваш агент, повертає відповідь. І станом на 25 квітня 2026 року майже ніхто в індустрії не валідує вміст цієї відповіді до того, як вона потрапляє в контекстне вікно агента — робочу пам'ять, де AI-модель не може відрізнити довірені інструкції від сміття, яке щойно виплюнув інструмент.

Три платформи, одна й та сама сліпа зона

З початку квітня три найбільші AI-компанії випустили функції безпеки агентів — і всі охороняють не ті двері.

8 квітня Anthropic запустив Managed Agents із обмеженими дозволами та сховищем облікових даних. Це контролює, які інструменти агент може викликати. Що ці інструменти відповідають? Не їхня проблема.

16 квітня OpenAI оновив свій Agents SDK з автоматичним трейсингом — системою логування, яка записує кожен виклик інструменту, передачу та подію guardrail. Вона спостерігає за відповідями. Вона їх не санітизує. Це як поставити камеру спостереження, яка дивиться, як хтось заходить із ножем, і записує це в журнал.

22 квітня Google представив Agent Gateway на Cloud Next з Model Armor, який дійсно санітизує і виклики інструментів, і відповіді — перевіряючи на prompt injection, шкідливі URL та витік даних. Google, треба віддати належне, — єдина велика платформа, яка явно захищає сторону відповідей. Поки що в preview.

Чому це важливо: двері нараспашку

Специфікація MCP визначає inputSchema — строгий формат того, що ви надсилаєте інструменту. Ніякого outputSchema немає. Відповіді інструментів — це довільний текст або JSON, який без фільтрації потрапляє в reasoning моделі. У специфікації буквально немає поля для "валідуй те, що повертається".

Це створює три вектори атак, від яких варто не спати ночами:

Indirect prompt injection — інструмент повертає контент із прихованими інструкціями всередині. У звіті PipeLab State of MCP Security 2026 (опублікований у квітні 2026) задокументований реальний випадок: зловмисник створив шкідливий GitHub issue, і коли MCP-сервер його завантажив, відповідь наказала агенту вивести вміст приватних репозиторіїв назовні. "Описи інструментів були чистими. Отрута сиділа в даних, які інструмент повернув."

Context flooding — інструмент повертає стільки даних, що топить робочу пам'ять агента, виштовхуючи критичні інструкції за межі контекстного вікна.

Ланцюжки ексфільтрації даних — отруєна відповідь каже агенту переслати чутливий контекст іншому інструменту. У дослідженні Log-To-Leak (опубліковане у березні 2026) це продемонстрували на GPT-5, Claude Sonnet 4 та інших — досягнувши 100% успішності атаки на GPT-5, підключеному до PayPal MCP-сервера, з точністю витоку даних 94,6%.

Тим часом, 16 квітня OX Security розкрила 11 CVE, що торкаються приблизно 200 000 інстансів MCP-серверів. Офіційна відповідь Anthropic: санітизація — це "відповідальність розробника". Навіть OWASP MCP Top 10 (випущений у квітні 2026) — перша в індустрії спроба створити фреймворк безпеки MCP — не має окремої категорії для невалідованих відповідей інструментів. Прогалина настільки нормалізована, що люди, які пишуть стандарти безпеки, ще навіть не дали їй назву.

Ціна виправлення

Додавання валідації відповідей вбиває простоту, завдяки якій MCP став успішним. Інструменти потребуватимуть вихідних схем. Агентам знадобиться шар санітизації — щось на кшталт Microsoft Agent Governance Toolkit (відкритий 2 квітня), який включає MCP security gateway з інспекцією відповідей. Кожен виклик отримає overhead на парсинг. "Просто підключи інструмент" — і нема.

Але альтернатива гірша.

Що це означає для вас

Доки валідація на стороні відповідей не з'явиться скрізь, кожен MCP-сервер, який ви підключаєте, — це нефільтрована труба прямо в мозок вашого агента. Весь бюджет на безпеку, витрачений на вхідні шлюзи, захищає не той кінець виклику. Якщо ви запускаєте агентів у продакшені сьогодні, вам потрібен або Model Armor від Google (preview), або AGT від Microsoft, або власний middleware для санітизації відповідей. "Довіряй інструменту" — це не політика безпеки.

Ви замкнули вхідні двері. На задніх дверях немає замка. Там навіть дверей немає.

Наступний великий інцидент із безпекою агентів прийде не від поганого виклику інструменту. Він прийде від відповіді інструменту.

Ви захистили виклики інструментів агента. Відповіді не захистив ніхто.

Три платформи, одна й та сама сліпа зона

Чому це важливо: двері нараспашку

Ціна виправлення

Що це означає для вас

Читай далі

Google ADK 1.0: ваші AI-інструменти можуть бути таємними агентами

Кожен текст, який читає твій AI-агент — це непідписана команда

Перший MCP-сервер на Python: 40 рядків вiд людини-копiпасти до ШI, що бачить вашi данi

Твій агент обирає не той інструмент, бо ти написав поганий description -- і жодній платформі не цікаво