Du vertraust Anthropic mehr als anderen KI-Laboren. Verständlich — sie haben's sich verdient. Jedes Claude-Release kommt mit einer System Card: was das Modell kann, wo es versagt, welche Leitplanken existieren. Ein Beipackzettel für KI. Dreizehn Stück seit Juli 2023, alle öffentlich gelistet. Mehr Transparenz, als die meisten Labore je vorzutäuschen versuchen.

Dann hat Anthropic am 8. April 2026 Claude als autonomen Arbeiter ausgeliefert — einen, der sich selbst aufweckt, stundenlang läuft, Code unter deinem Namen pusht — und den Beipackzettel vergessen.

Der Präzedenzfall, der das Ganze peinlich macht

Du kennst Managed Agents und Routines. Dieser Kanal hat die Themen bis zum Abwinken behandelt. Managed Agents startete am 8. April, Routines folgten am 14. April. Claude läuft jetzt autonom, unbeaufsichtigt, nach Zeitplan, mit Tool-Zugriff und persistentem Gedächtnis.

Beides kam ohne System Card.

Jetzt Zeitsprung zurück: Oktober 2024. Anthropic launchte Computer Use Beta — Claude klickt auf deinem Bildschirm rum. Dazu gab es ein eigenes Model Card Addendum mit Abdeckung autonomer Aktionsrisiken: Prompt Injection über Browser-Inhalte, Fehlerquoten bei Screenshot-Interpretation, Schutzmaßnahmen gegen destruktive Befehle, explizite Warnungen, dass das Feature "unerwartete Aktionen ausführen kann", und eine vollständige Liste der Angriffsflächen, über die bösartige Inhalte Claudes Aktionen kapern könnten.

Computer Use ließ Claude Buttons klicken. Managed Agents lässt Claude deine Infrastruktur betreiben. Rate mal, was die Sicherheitsdokumentation bekommen hat.

"Thoughts and Prayers" in Blogpost-Form

Am 9. April — einen Tag nach dem Managed-Agents-Launch — veröffentlichte Anthropic "Trustworthy agents in practice": fünf Prinzipien zu menschlicher Kontrolle, Werteausrichtung, Interaktionssicherheit, Transparenz und Datenschutz. Das Dokument räumt selbst ein, dass diese Schutzmaßnahmen "nicht narrensicher" seien und das Modell "sich anders verhält, wenn es glaubt, getestet zu werden."

Das ist keine Sicherheitsbewertung. Das ist der Haftungsausschluss auf der Rückseite eines Bungee-Jumping-Vertrags.

Eine System Card liefert Fehlermodi, Red-Team-Ergebnisse, quantifizierte Risiken. Ein Prinzipien-Blog liefert Vibes und den impliziten Hinweis, dass du's schon selbst rausfinden wirst.

Was das fehlende Dokument enthalten würde

Eine Model Card dokumentiert ein Gehirn. Eine Agent Card dokumentiert einen Mitarbeiter mit Schlüssel zu deiner Infrastruktur. Hier ist, was Anthropic veröffentlichen müsste:

Permission Scopes. Managed Agents verbindet sich mit Notion, Sentry, Asana und beliebigen APIs. Das Computer-Use-Addendum listete explizit auf, welche Aktionen eingeschränkt waren. Für Agents? Nichts.

Seiteneffekt-Inventar. Kann er Dateien löschen? Code pushen? Datenbankeinträge ändern? E-Mails in deinem Namen senden? Die Antwort variiert je nach Integration, und niemand hat's kartiert.

Kosten-Eskalationsszenarien. Eine Routine feuert alle 5 Minuten, jeder Lauf spawnt Subagenten, die Subagenten spawnen. Dein Billing-Dashboard erfährt's vor dir.

Kill Switch. Wie stoppst du einen laufenden Agenten mitten in der Aufgabe? In welchem Zustand hinterlässt er deine Codebase? Welche halbfertigen Commits liegen in deinem Repo?

Datenspeicherung. Persistente Sessions speichern Kontext über Läufe hinweg. Wo liegen diese Daten? Wer hat Zugriff? Wie lange? Diese Richtlinien bleiben "nicht vollständig spezifiziert".

Die akademische Welt hat bereits ein Framework vorgeschlagen. Forscher veröffentlichten "Agent Cards" im Februar 2026. Das NIST startete eine AI Agent Standards Initiative im selben Monat. Niemand hat beides adoptiert. Aber niemand sonst hat seine gesamte Marke darauf aufgebaut, Sicherheitsdokumente vor dem Launch zu veröffentlichen.

Deine Hausaufgaben

Du deployest diese Produkte. Teams tun es bereits. Und du schreibst jetzt die Sicherheitsbewertung, die Anthropic früher für dich geschrieben hat.

Grenzt die Berechtigungen eures Agenten ein. Deckelt die Ausgaben. Dokumentiert seine Seiteneffekte. Definiert, wie ein Mensch eingreift. Testet, was passiert, wenn Tools ausfallen — denn manche Entwickler haben bereits gelernt, dass Subagenten Output halluzinieren, statt sauber zu scheitern, wenn Tools verschwinden.

Model Cards waren Anthropics Geschenk an die Branche. Agent Cards sind die technische Schuld, die sie gerade in Produktion ausgeliefert haben.