KI-Agenten können jetzt deine Incidents lösen — wenn deine Runbooks keine Folklore sind

Dein Handy brüllt um 3 Uhr morgens. Du baust per SSH eine Verbindung zum Server auf und tippst dieselben drei Befehle ein wie letzten Monat. Du behebst dasselbe Problem wie letztes Quartal. Deine Finger kennen die Lösung, bevor dein Hirn aufwacht.

Die Wiederholung ist der eigentliche Killer. Nicht die Incidents selbst — sondern die Tatsache, dass du die Antwort schon kennst, bevor du den Laptop aufklappst, und niemand diese Antwort jemals in ein Skript gegossen hat.

Q1 2026 hat das Argument für Automatisierung so laut gemacht wie nie zuvor. Drei große Plattformen haben KI-Agenten ausgeliefert, die genau auf dieses Muskelgedächtnis abzielen. Am 12. März kündigte PagerDuty seinen SRE Agent an — eine KI, die sich an vergangene Incidents, Abhängigkeiten und Gesprächsverläufe erinnert und dann in vier Phasen arbeitet: erkennen, diagnostizieren, beheben, lernen. 30+ KI-Partner kamen mit an Bord, darunter Integrationen für Claude Code und Cursor. Ebenfalls im März brachte Datadog Bits AI SRE v2 heraus — rund doppelt so schnell wie sein Vorgänger, mit Untersuchungen in 3–4 Minuten, der Fähigkeit, Analysen zu planen, konkurrierende Root-Cause-Hypothesen zu bewerten und in Echtzeit nachzujustieren. Grafana Labs wiederum rollt seit Ende 2025 seine Assistant Investigations aus — eine Multi-Agent-Architektur (mehrere KI-Agenten arbeiten zusammen, jeder mit einer Spezialisierung), bei der ein Lead Investigator die Arbeit plant, während spezialisierte Agenten für Prometheus, Loki, Tempo und Pyroscope — Grafanas Monitoring-Tools — parallel Beweise sammeln.

Drei Unternehmen, derselbe Kernablauf: Runbooks aufnehmen (Schritt-für-Schritt-Anleitungen, die von Menschen geschrieben wurden), Muster mit eingehenden Alerts abgleichen, vorab freigegebene Behebungsschritte ausführen, erst eskalieren, wenn die Konfidenz unter einen Schwellenwert fällt. PagerDutys Agent erstellt nach jedem Incident aktualisierte Runbooks. Datadog bietet mit dem neuen Agent Trace View volle Transparenz über jeden Untersuchungsschritt, jeden aufgerufenen Tool-Call, jede ausgeführte Query. Grafanas Agenten liefern Befunde und Hypothesen und übergeben dir umsetzbare Empfehlungen. Die Maschinerie ist real. Zehntausende Untersuchungen liefen während der Testphase durch Datadog's System in über 2.000 Kundenumgebungen.

Die ersten Zahlen sehen solide aus — innerhalb eines bestimmten Korridors. PagerDuty behauptet, sein Agent löse Incidents bis zu 50 % schneller. Datadog nennt bis zu 70 % Reduktion der MTTR (Mean Time to Resolution — die Zeitspanne von 'etwas ist kaputt" bis 'es läuft wieder") bei Early Adopters, Pressematerial erwähnt 95 % in Bestfällen. Streicht den Vendor-Optimismus raus, und der ehrliche Bereich liegt bei etwa 40–60 % Verbesserung — aber nur für gut dokumentierte, wiederholbare Fehler. Risikoarme, umkehrbare Aktionen: Server hochskalieren, Neustarts, Cache leeren, Feature-Flag-Toggles. Das Zeug, das dein Muskelgedächtnis schon um 3 Uhr morgens erledigt.

Hier bricht die gängige Meinung auseinander. Die Branchendiskussion dreht sich um KI-Fähigkeiten — kann der Agent korrekt diagnostizieren, kann er sicher beheben, kann er aus vergangenen Incidents lernen. Aber wie Rootlys Analyse zu AI SRE es formuliert: 'Incident Resolution hängt von Stammwissen ab, das in Slack, Tickets, Runbooks, Code-Kommentaren und alten Postmortems steckt." Die meisten Runbooks sind keine Dokumentation — sie sind Folklore mit Formatierung. Neue Leute im Team brauchen 12–18 Monate, bis sie sich sicher fühlen, Incidents eigenständig zu lösen. Nicht weil Incidents so komplex sind, sondern weil das Wissen in den Köpfen einzelner Menschen lebt. Gib einer Maschine Root-Zugang und Restart-Berechtigungen mit einem schlechten Runbook, und du bekommst schlechte automatisierte Fehlerbehebung — mit Maschinengeschwindigkeit. Das Vertrauensproblem liegt nicht bei den Fähigkeiten der KI. Es liegt an der Dokumentationsqualität, die die meisten Teams nie aufbauen mussten.

Hochrisiko-Flows — Zahlungen, Identität, Trading-Systeme — erfordern weiterhin menschliche Freigabe-Gates. Jeder Anbieter bestätigt das. Der Reifepfad geht von read-only über beratend zu genehmigungsbasiert bis voll autonom. Die meisten Organisationen stehen irgendwo in den ersten beiden Stufen.

KI-SRE-Agenten ersetzen keine On-Call-Engineers. Sie ersetzen die repetitiven, seelenzermürbenden 80 % der Rufbereitschaft — den Teil, der Burnout verursacht, den Teil, wegen dem gute Leute kündigen. Branchenanalysen deuten darauf hin, dass Unternehmen, die KI-gestützten Incident-Betrieb einführen, 30–50 % weniger kundenspürbare Ausfälle verzeichnen. Nicht weil die KI schlauer ist als du. Sondern weil sie keinen Kaffee braucht, um um 3 Uhr morgens einen Pod neuzustarten.

Die Ops-Rolle verändert sich. Nicht von der-Mensch-der-Dinge-repariert zu der-Mensch-der-durch-eine-Maschine-ersetzt-wird, sondern zu der-Mensch-der-entscheidet-was-sicher-automatisierbar-ist. Und dieser zweite Job braucht bessere Dokumentation, als der erste sie je brauchte. Deine Runbooks sind nicht mehr nur Notizen für die nächste Rufbereitschaft. Sie sind Anweisungen für eine Maschine mit Root-Zugang. Schreib sie entsprechend.

KI-Agenten können jetzt deine Incidents lösen — wenn deine Runbooks keine Folklore sind

Keep reading

Dein AI-Agent weiss nicht, dass es 3 Uhr nachts ist und Prod brennt

Claude Code Routines: Anthropic hat seinen ersten KI-Daemon released

Drei Agent-Plattformen im April gelauncht. Keine liefert einen Deploy-Button.

Deine Agent-Tools haben keine Versionsnummern. 97 Millionen Downloads ist das egal.