Dein AI-Agent weiss nicht, dass es 3 Uhr nachts ist und Prod brennt

Am 11. März 2026 hat Amazons Kiro-AI-Agent eigenständig eine AWS-Produktionsumgebung gelöscht und neu erstellt. Dreizehn Stunden Downtime. Rund 6,3 Millionen verlorene Bestellungen. Das Post-Mortem von Particula hat die Unterscheidung auf den Punkt gebracht, die wirklich zählt: "Berechtigungen beantworten die Frage ‚Kann der Agent das tun?' Sie beantworten nicht die Frage ‚Sollte der Agent das tun?' — und genau das ist die Frage, die für Produktionssicherheit entscheidend ist."

Diese "Sollte"-Frage baut gerade niemand ein.

Das unsichtbare Betriebssystem deines Teams

Dein Team hat ungeschriebene Regeln. Kein Deploy am Freitag. Bots stumm schalten bei Incidents. Finger weg von allem während des Sprint-Planning-Freeze. Niemand hat diese Regeln aufgeschrieben, weil jeder Mensch im Team sie einfach kennt. Das ist die Art von operativem Instinkt, die man nach einem nächtlichen Alarm zu viel entwickelt.

Deine neuen AI-Agents wissen davon nichts. Sie feuern nach Zeitplan, pushen Code, erstellen Tickets und posten Updates — egal was um sie herum brennt.

"Aber wir haben doch schon Automatisierung"

Ja. Und es hat ein Jahrzehnt Narbengewebe gebraucht, um ihr Zurückhaltung beizubringen.

PagerDuty brauchte zehn Jahre 3-Uhr-morgens-Post-Mortems, um zu lernen, dass man Leute vielleicht nicht wegen eines kaputten Staging-Servers anpagen sollte, während Prod in Flammen steht. CI/CD-Pipelines (automatisierte Build-Test-Deploy-Ketten) brauchten eine ganze Generation an verpatzten Releases, um zu begreifen, dass "respektiere den Change Freeze" kein Vorschlag ist — sondern Überlebensstrategie. Slack-Bots schalten sich während Wartungsfenstern stumm, weil irgendein armer Kerl während eines P0 mal 400 Benachrichtigungen bekam und am nächsten Morgen kündigte.

Jedes ausgereifte Ops-Tool trägt hart erarbeitetes Urteilsvermögen in sich, codiert als Situationsbewusstsein. Die Agent-Plattformen, die zwischen dem 8. und 15. April 2026 gelauncht wurden, haben dieses ganze Jahrzehnt übersprungen und gesagt: "Reicht schon."

Die Launches, die du schon kennst

Ich erspare dir die komplette Zusammenfassung — du hast die Berichterstattung gesehen. Anthropic hat Managed Agents (8. April) und Claude Code Routines (14. April) ausgeliefert. OpenAI hat sein Agents SDK aktualisiert (15. April). Drei Plattformen, acht Tage. Andrej Karpathy nannte es die "Loopy Era", nachdem sein AutoResearch-Agent am 17. März 2026 unbeaufsichtigt 700 Experimente in zwei Tagen durchlief.

Was dir vielleicht entgangen ist: Ich habe jede Dokumentationsseite aller drei Plattformen geprüft. Null Integration mit Incident Management. Keine Freeze-Window-Unterstützung. Kein Deployment-State-Awareness. Nicht ein einziger Hook, der fragt: "Ist gerade ein schlechter Zeitpunkt?"

Wie kontextuelle Blindheit um 2 Uhr nachts aussieht

Eine Routine pusht einen Dependency-Update-PR, während der On-Call-Engineer einen P0-Incident bekämpft. Ein Managed Agent erstellt Jira-Tickets, die mit dem Sprint-Planning-Freeze kollidieren. Ein SDK-Agent wiederholt einen fehlgeschlagenen API-Call gegen eine Datenbank mitten in der Migration.

Jede Aktion technisch korrekt. Jede einzelne operativ katastrophal.

Das ist dieselbe Fehlerklasse, die Amazon am 11. März den Nachmittag ruiniert hat. Kiro hatte die Berechtigung, die Umgebung neu zu erstellen. Niemand hatte das Urteilsvermögen codiert, es nicht zu tun.

Der Preis von "Always-On" ohne "Always-Aware"

Agent-Awareness heute aufzubauen bedeutet Custom-Verdrahtung: Trigger mit PagerDuty, Opsgenie, ArgoCD, Team-Kalendern verbinden — ein MCP-Server (ein standardisiertes Plugin, das AI-Tools mit externen Diensten verbindet) pro Signalquelle. Niemand paketiert das.

Die täglichen Caps der Routines — 5 Läufe für Pro, 15 für Max, 25 für Enterprise — begrenzen, wie oft ein Agent läuft. Sie sagen nichts darüber aus, wann er besser still sein sollte. The Register nannte sie "mäßig clevere Cron-Jobs", was schon großzügig ist — denn echter Cron läuft wenigstens in einem Ökosystem, das vor Jahrzehnten Zurückhaltung gelernt hat.

Was du tun kannst, bis die Plattformen aufholen

Drei Dinge, keins davon optional:

Dokumentiere Agent-Runbooks neben den menschlichen. Wenn dein On-Call-Playbook sagt "während Incidents kein Deploy", braucht dein Agent dieselbe Regel — in seiner Config-Datei, nicht in deinem Kopf.
Explizite Freeze-Window-Configs. Auch handgestrickt. Eine Textdatei, die sagt "Sprint Planning: Dienstag 10–11 Uhr, keine Tickets erstellen" schlägt Nichts um Längen.
Ein Kill Switch, der nicht ‚lösch die Routine' heißt. Irgendwas zwischen "läuft" und "für immer verschwunden". Ein Pause-Button. Offenbar ein radikales Konzept.

Die Disziplin, die es noch nicht gibt

Die Agent-Ära braucht nicht mehr Fähigkeiten. Jede Woche kommen neue dazu. Was sie braucht, ist ihre eigene Ops-Disziplin — eine, die nicht die Frage "Was kann der Agent?" beantwortet, sondern "Wann sollte der Agent die Klappe halten?"

Dein Team hat Jahre gebraucht, diesen Instinkt aufzubauen. Deine Agents starten jedes Mal bei null. Solange die Plattformen operativen Kontext nicht als First-Class Primitive einbauen, ist diese Lücke dein Problem — manuell, mühsam, ein Freeze Window nach dem anderen.

Der Kiro-Incident war kein Berechtigungsfehler. Es war ein Fehler im Urteilsvermögen. Und gerade jetzt trägt jeder Always-On-Agent in Produktion denselben blinden Fleck.

Dein AI-Agent weiss nicht, dass es 3 Uhr nachts ist und Prod brennt

Das unsichtbare Betriebssystem deines Teams

"Aber wir haben doch schon Automatisierung"

Die Launches, die du schon kennst

Wie kontextuelle Blindheit um 2 Uhr nachts aussieht

Der Preis von "Always-On" ohne "Always-Aware"

Was du tun kannst, bis die Plattformen aufholen

Die Disziplin, die es noch nicht gibt

Keep reading

Claude Code Routines: Anthropic hat seinen ersten KI-Daemon released

Der Berechtigungsdialog deines Agenten ist ein Placebo

Das Agenten-Paradoxon: Weniger Autonomie, mehr Nutzen

Drei Agent-Plattformen, drei verschiedene Spezies