Ufasz Anthropic bardziej niż innym labom AI. Okej — zasłużyli sobie. Każdy release Claude'a ląduje z system card: co model potrafi, gdzie się wysypuje, jakie zabezpieczenia istnieją. Taka etykieta składu dla AI. Trzynaście sztuk od lipca 2023, wszystkie publicznie dostępne. Więcej transparentności niż większość labów jest w stanie nawet udawać.
A potem 8 kwietnia 2026 Anthropic wypuściło Claude'a jako autonomicznego pracownika — takiego, który sam się budzi, działa godzinami, pushuje kod pod twoim nazwiskiem — i zapomniało o etykiecie.
Precedens, przez który jest niezręcznie
Znasz Managed Agents i Routines. Na tym kanale omawialiśmy je do znudzenia. Managed Agents weszło 8 kwietnia, Routines doszły 14 kwietnia. Claude działa teraz autonomicznie, bez nadzoru, według harmonogramu, z dostępem do narzędzi i trwałą pamięcią.
Żadne z nich nie dostało system card.
Teraz cofnij się do października 2024. Anthropic uruchomiło Computer Use beta — Claude klikający po twoim ekranie. Tamto dostało dedykowany Model Card Addendum pokrywający ryzyka autonomicznych akcji: prompt injection przez zawartość przeglądarki, wskaźniki błędnej interpretacji screenshotów, zabezpieczenia przed destrukcyjnymi komendami, jawne ostrzeżenia, że funkcja "może podejmować nieoczekiwane akcje" i pełną listę wektorów ataku, przez które złośliwa treść mogła przejąć kontrolę nad działaniami Claude'a.
Computer Use pozwalało Claude'owi klikać przyciski. Managed Agents pozwala Claude'owi zarządzać twoją infrastrukturą. Zgadnij, które dostało dokumentację bezpieczeństwa.
"Modlitwy i myśli" w formie bloga
9 kwietnia — dzień po premierze Managed Agents — Anthropic opublikowało "Trustworthy agents in practice": pięć zasad dotyczących kontroli ludzkiej, zgodności wartości, bezpieczeństwa interakcji, transparentności i prywatności. Sam dokument przyznaje, że te zabezpieczenia "nie są niezawodne" i że model "zachowuje się inaczej, kiedy myśli, że jest testowany."
To nie jest ocena bezpieczeństwa. To jest zastrzeżenie wydrukowane drobnym drukiem na odwrocie umowy na skok na bungee.
System card daje ci tryby awarii, wyniki red-teamingu, skwantyfikowane ryzyka. Blog z zasadami daje ci vibes i ukryte założenie, że jakoś sobie poradzisz.
Co zawierałby brakujący dokument
Model card dokumentuje mózg. Agent card dokumentuje pracownika z kluczami do twojej infrastruktury. Oto co Anthropic musiałoby opublikować:
Zakresy uprawnień. Managed Agents łączy się z Notion, Sentry, Asana i dowolnymi API. Addendum do Computer Use jawnie wymieniało, które akcje są ograniczone. Dla agentów? Nic.
Inwentaryzacja efektów ubocznych. Czy może usuwać pliki? Pushować kod? Modyfikować rekordy w bazie danych? Wysyłać maile w twoim imieniu? Odpowiedź zmienia się z każdą integracją, a nikt tego nie zmapował.
Scenariusze ucieczki kosztów. Routine odpala się co 5 minut, każde uruchomienie spawnuje subagenty, które spawnują kolejne subagenty. Twój dashboard billingowy dowiaduje się przed tobą.
Kill switch. Jak zatrzymujesz działającego agenta w trakcie zadania? W jakim stanie zostawia twój codebase? Ile niedokończonych commitów leży w twoim repozytorium?
Retencja danych. Trwałe sesje przechowują kontekst między uruchomieniami. Gdzie te dane żyją? Kto ma do nich dostęp? Na jak długo? Te polityki pozostają "nie w pełni określone".
Świat akademicki już zaproponował framework. Badacze opublikowali "Agent Cards" w lutym 2026. NIST uruchomił AI Agent Standards Initiative w tym samym miesiącu. Nikt tego nie wdrożył. Ale też nikt inny nie zbudował całej swojej marki na publikowaniu dokumentacji bezpieczeństwa przed wypuszczeniem produktu.
Twoja praca domowa
Wdrażasz te produkty. Zespoły już to robią. I to ty piszesz ocenę bezpieczeństwa, którą kiedyś Anthropic pisało za ciebie.
Określ uprawnienia swojego agenta. Ustaw limity wydatków. Udokumentuj efekty uboczne. Zdefiniuj, jak człowiek interweniuje. Przetestuj, co się dzieje, gdy narzędzia padają — bo niektórzy deweloperzy już się przekonali, że subagenty halucynują output zamiast zgłaszać błąd, kiedy narzędzia znikają.
Model cards były prezentem Anthropic dla branży. Agent cards to dług, który właśnie wylądował na produkcji.





