Ви довіряєте Anthropic більше, ніж іншим AI-лабораторіям. Окей — вони це заслужили. Кожен реліз Claude виходить із system card: що модель вміє, де ламається, які запобіжники стоять. Етикетка з харчовою цінністю, тільки для ШІ. Тринадцять штук із липня 2023-го, всі у відкритому доступі. Більше прозорості, ніж більшість лабораторій навіть імітують.

А потім 8 квітня 2026-го Anthropic випустили Claude як автономного працівника — такого, що сам прокидається, працює годинами, пушить код від вашого імені — і забули наклеїти етикетку.

Прецедент, який робить це незручним

Ви знаєте Managed Agents і Routines. Цей канал розібрав їх вздовж і впоперек. Managed Agents запустили 8 квітня, Routines — 14-го. Claude тепер працює автономно, без нагляду, за розкладом, з доступом до інструментів і постійною пам'яттю.

Жодна з цих фіч не вийшла з system card.

Тепер перемотаймо на жовтень 2024-го. Anthropic запустили Computer Use beta — Claude клацає по вашому екрану. До нього додали окремий Model Card Addendum, що покривав ризики автономних дій: prompt injection через контент браузера, відсотки помилок при розпізнаванні скріншотів, захист від деструктивних команд, прямі попередження, що фіча "може виконувати неочікувані дії", і повний перелік поверхонь атаки, через які зловмисний контент міг перехопити дії Claude.

Computer Use дозволяв Claude натискати кнопки. Managed Agents дозволяє Claude керувати вашою інфраструктурою. Вгадайте, що отримало документацію з безпеки.

"Думки і молитви" у формі блог-поста

9 квітня — через день після запуску Managed Agents — Anthropic опублікували "Trustworthy agents in practice": п'ять принципів про людський контроль, відповідність цінностям, безпеку взаємодії, прозорість, приватність. Сам документ визнає, що ці запобіжники "не є бездоганними" і що модель "поводиться інакше, коли думає, що її тестують".

Це не оцінка безпеки. Це дісклеймер, надрукований дрібним шрифтом на зворотному боці договору про банджі-джампінг.

System card дає вам режими відмов, результати red-team тестування, кількісно виміряні ризики. Блог із принципами дає вам вайби та неявну пропозицію розібратися самостійно.

Що було б у відсутньому документі

Model card документує мозок. Agent card документує працівника з ключами від вашої інфраструктури. Ось що Anthropic мали б опублікувати:

Scope дозволів. Managed Agents підключається до Notion, Sentry, Asana та довільних API. В addendum до Computer Use чітко вказували, які дії були обмежені. Для агентів? Нічого.

Інвентаризація побічних ефектів. Чи може він видаляти файли? Пушити код? Змінювати записи в базі даних? Надсилати листи від вашого імені? Відповідь залежить від інтеграції, і ніхто її не задокументував.

Сценарії неконтрольованих витрат. Routine запускається кожні 5 хвилин, кожен запуск породжує субагентів, які породжують субагентів. Ваш білінг-дашборд дізнається раніше за вас.

Kill switch. Як зупинити агента посеред задачі? В якому стані залишиться ваш кодбейс? Які напівнаписані коміти висітимуть у вашому репозиторії?

Зберігання даних. Постійні сесії зберігають контекст між запусками. Де ці дані живуть? Хто має до них доступ? Як довго? Ці політики залишаються "не повністю визначеними".

Академічний світ уже запропонував фреймворк. Дослідники опублікували "Agent Cards" у лютому 2026-го. NIST того ж місяця запустив AI Agent Standards Initiative. Ніхто не впровадив жодне з них. Але ніхто інший і не будував увесь свій бренд на публікації документів безпеки до релізу.

Ваше домашнє завдання

Ви деплоїте ці продукти. Команди вже це роблять. І тепер ви пишете ту оцінку безпеки, яку Anthropic раніше писали за вас.

Визначте scope дозволів агента. Обмежте його витрати. Задокументуйте побічні ефекти. Опишіть, як людина втручається. Протестуйте, що відбувається, коли інструменти падають — бо деякі розробники вже з'ясували, що субагенти галюцинують відповіді замість того, щоб падати з помилкою, коли тули зникають.

Model cards були подарунком Anthropic індустрії. Agent cards — це борг, який вони щойно задеплоїли в продакшн.