Niemand liefert Agent-Chain-Reliability aus. So baust du sie selbst.

Du hast deinen KI-Agenten an fünf Tools angeschlossen — Slack, GitHub, Jira, eine Datenbank, E-Mail. Jedes einzelne funktioniert. Du hast sie einzeln getestet, überall grünes Licht bekommen, dir selbst auf die Schulter geklopft. Dein Dashboard sagt 95% Erfolgsrate. Das Leben ist schön.

Nur dass dein tatsächlicher Workflow — Datenbank lesen, Ticket erstellen, Repo updaten, Slack benachrichtigen, Zusammenfassung senden — ein- bis zweimal am Tag still und leise den Ball fallen lässt. Kein Alarm geht los. Kein Dashboard wird rot. Der Agent... macht einfach nicht fertig. Und du fragst dich, ob du den Verstand verlierst oder ob die Maschine dich gaslightet.

Die Lücke, die niemand geschlossen hat

Die Google Cloud Next endete am 22. April mit einem Stapel Agent-Ankündigungen. Drei Tage zuvor, am 17. April, launchte AWS seine Agent Registry in AgentCore. Und Anfang des Monats, am 8. April, hat Anthropic Managed Agents ausgeliefert. Alle drei bieten jetzt Agent-Monitoring an. Alle drei messen Metriken pro Tool — Latenz, Fehlerraten, Request-Counts via MCP (Model Context Protocol — ein universeller Stecker-Standard für KI-Tools, quasi USB für Daten). Keiner misst die Zuverlässigkeit zusammengesetzter Ketten: die Wahrscheinlichkeit, dass dein mehrstufiger Workflow tatsächlich durchläuft.

Fünf Schritte mit je 95%? Das sind 77,4% End-to-End. Einfache Multiplikation, die dein Dashboard sich weigert durchzuführen.

Die Zahl zu kennen ist Schritt eins. Sie zu fixen ist der eigentliche Job. Also, was liefern die Frameworks?

Was Frameworks tatsächlich mitbringen

LangGraph kommt am nächsten. Seine Checkpointer-Klassen persistieren den State an jedem Graph-Knoten. Schritt vier schlägt fehl, du setzt bei Schritt drei fort — nicht von vorne. Echte Infrastruktur. Der Haken: Dein gesamter Agent muss ein State Graph sein. Einen bestehenden Agenten umzurüsten heißt, ihn neu zu schreiben.

CrewAI gibt dir max_retry_limit pro Task und Callback-Hooks. Das ist Retry-Logik — gleiches Tool, gleicher Input, nochmal versuchen. Wenn der Fehler von einer fehlerhaften MCP-Server-Response kommt, ist identisches Wiederholen die Definition von Wahnsinn.

Googles ADK, angekündigt auf der Cloud Next am 22. April, liefert Session-Level State Management. Ihre Observability-Schicht — die fortschrittlichste der drei — rendert trotzdem nur Traces pro Aufruf. Du siehst die Latenz einzelner MCP-Calls. Du siehst nicht "diese Fünf-Schritte-Kette lief diese Woche zu 77% durch."

Anthropics Managed Agents tracken Session-Status, Dauer und Kosten. Nützlich für die Abrechnung. Nutzlos für die Ketten-Fertigstellung.

Das fehlende Primitiv

Ein Google Cloud Community Playbook, veröffentlicht am 9. März, dokumentiert das Kernmuster, das niemand nativ ausliefert: Step-Level Checkpointing — den Output jedes Schritts speichern, damit du mitten in der Kette fortsetzen kannst. LangGraph macht das. Alle anderen: Du schreibst deine eigene Persistenzschicht.

Das Playbook behandelt außerdem Circuit Breaker, Fallback-Routing und andere Microservices-Patterns, adaptiert für Agenten. Nützliche Referenzen, aber die echte Lücke liegt weiter oben im Stack: Chain-Level SLOs. "Dieser Workflow muss End-to-End in 95% der Fälle durchlaufen." Keine Plattform bietet diese Metrik. Du baust sie dir selbst mit Custom Telemetry, einer Zeitreihen-DB und eigenen Alerting-Regeln.

All das ist echte Ingenieursarbeit auf Plattformen, die dich ohnehin schon zur Kasse bitten — Anthropic zum Beispiel mit 0,08 Dollar pro Session-Stunde.

Was du am Montag früh tun solltest

Nimm ein Framework mit nativem Checkpointing. Wenn du bei null anfängst, ist LangGraphs State-Persistenz die am wenigsten schlechte Option. Wenn du bereits Agenten betreibst, füge Step-Level-Saves für deine drei kritischsten Ketten hinzu, bevor du den nächsten MCP-Server anbindest.

Instrumentiere Erfolg auf Kettenebene. Nicht pro Tool — pro Workflow. Logge einen einzelnen Boolean: Hat die Kette durchlaufen? Aggregiere wöchentlich. Du wirst die Zahl hassen, aber wenigstens hast du eine.

Halte Ketten kurz. Drei Schritte, nicht zehn. Jeder zusätzliche Schritt multipliziert deine Ausfallwahrscheinlichkeit.

Die echte Infrastrukturlücke

Das nächste bedeutsame Upgrade im Agent-Stack ist kein schlaueres Modell und kein schnelleres Tool. Es ist das Framework, das zusammengesetzte Ketten-Zuverlässigkeit so behandelt wie Datenbanken Transaktionsgarantien — als erstklassiges Primitiv, nicht als Bastelprojekt. LangGraphs Checkpointing deutet diese Zukunft an. Googles ADK Session Management zeigt in dieselbe Richtung. Alle anderen verkaufen dir die Stärke einzelner Kettenglieder und hoffen, dass du nie an der ganzen Kette ziehst.

Niemand liefert Agent-Chain-Reliability aus. So baust du sie selbst.

Die Lücke, die niemand geschlossen hat

Was Frameworks tatsächlich mitbringen

Das fehlende Primitiv

Was du am Montag früh tun solltest

Die echte Infrastrukturlücke

Keep reading

Die MCP-Roadmap 2026 hat vier Prioritaeten. Error Handling gehoert nicht dazu

Jeder Anbieter hat einen Raum gebaut. Niemand hat den Flur gebaut.

Dein KI-Agent crasht bei Schritt vier. Und jetzt?

Dein erster MCP-Server in Python: In 40 Zeilen vom Copy-Paste-Sklaven zur KI, die deine Daten sieht