Die Zahl, die auf keinem einzigen KI-Agenten-Dashboard auftaucht, ist wichtiger als jede Zahl, die die Anbieter draufgepackt haben: Hat der Agent eigentlich das getan, worum du ihn gebeten hast?

Diese Woche sind zwei weitere Plattformen dem Club der Verbrauchsmetriken beigetreten. Am 10. April hat GitHub aktive Nutzerzahlen für seinen Cloud-Agenten hinzugefügt. Am 8. April hat Anthropic Managed Agents gelauncht — für 0,08 $ pro Session-Stunde, millisekundengenau abgerechnet, Tokens extra. Dazu gesellt sich Googles Vertex AI Agent Engine, das seit der GA-Phase letztes Jahr nach vCPU-Sekunden abrechnet, und OpenAIs Codex, dessen "Success Rate" misst, ob der API-Call durchgelaufen ist — nicht ob der Code funktioniert.

Das ist, als würdest du die Produktivität eines Chirurgen daran messen, wie viele Skalpelle er in die Hand genommen hat.

Vier große Plattformen. Null Task-Erfolgsraten. Null Qualitätsbewertungen. Null Tracking, ob ein Mensch die Arbeit des Agenten nochmal machen musste.

Warum niemand misst, was zählt

Nicht weil es unlösbar wäre. Sondern weil es teuer, peinlich und schlecht für die Quartalszahlen ist.

Ein Chatbot gibt eine Antwort und du bewertest sie sofort. Ein Agent kettet zehn Schritte aneinander — liest ein Ticket, durchsucht Docs, schreibt Code, erstellt einen PR, pingt Slack. Jeder Schritt kann lautlos scheitern. Das Endergebnis erfordert Fachwissen zur Bewertung. Die Anbieter haben nicht einmal definiert, was "Erfolg" bei einem Agenten bedeutet, geschweige denn ihn gemessen.

Und die Forschung, die es gibt, ist nichts, was man auf eine Folie packen würde.

Die Zuverlässigkeitslücke, die keiner bewirbt

Am 24. Februar veröffentlichten die Princeton-Forscher Kapoor und Narayanan eine Studie, in der sie 14 KI-Modelle über 500 Benchmark-Läufe testeten. Ihr Ergebnis: Die Zuverlässigkeit von Agenten — dieselbe Aufgabe jedes Mal korrekt auszuführen — verbesserte sich mit halber Geschwindigkeit im Vergleich zur reinen Leistungsfähigkeit bei allgemeinen Aufgaben. Bei Kundenservice-Aufgaben legte die Zuverlässigkeit nur mit 14 % der Rate der Genauigkeit zu. Ihr Fazit: "Agents are not good at knowing when they're wrong."

Das ist die Zahl, die auf jedem Dashboard stehen sollte — und es nicht tut.

KI-Forscher Andrej Karpathy — OpenAI-Mitgründer, ehemaliger Tesla-KI-Chef — hat in seinem "March of Nines"-Framework vom November 2025 vorgerechnet, was das in der Praxis bedeutet: Wenn jeder Schritt in einem Zehn-Schritte-Workflow zu 90 % erfolgreich ist, sinkt die End-to-End-Erfolgsrate auf 35 %. Stell dir jetzt vor, dieser Agent läuft nachts um drei autonom, wird pro Stunde abgerechnet und keiner schaut hin.

Die Datenlage wird nicht besser. Eine CodeRabbit-Analyse vom 19. März untersuchte 470 GitHub-PRs und stellte fest, dass KI-generierter Code 1,7x mehr Probleme pro PR verursacht als menschlicher Code — bei Sicherheitslücken sogar 2,74x mehr. LangChains Umfrage vom 25. März befragte 1.340 Praktiker: 57 % setzen Agenten bereits in Produktion ein, aber nur 52 % evaluieren die Ergebnisse im Nachhinein, und gerade mal 37 % überwachen die Qualität, während die Agenten live laufen.

Mehr als die Hälfte der Branche hat Agenten deployed, bevor sie rausgefunden hat, ob sie funktionieren. Mutige Strategie.

Folge dem Geld

Verbrauchsbasierte Abrechnung verdient an einer gescheiterten Drei-Stunden-Session genauso wie an einer erfolgreichen. Ein Anbieter, der 0,08 $ pro Session-Stunde berechnet, hat null finanziellen Anreiz, dir dabei zu helfen herauszufinden, dass 40 % dieser Sessions Müll produzieren. Ergebnisse zu messen würde aktiv die Kennzahl beschädigen, auf die die Wall Street schaut: Revenue per Customer.

Drittanbieter-Observability-Tools — LangSmith, Braintrust, Helicone — versuchen, die Lücke zu füllen. Aber die vier größten Agenten-Plattformen liefern nativ nichts. Du bekommst einen Tacho ohne Navi.

Was das für dich bedeutet

Wenn dein Team autonome Agenten evaluiert — und statistisch gesehen tut es das — dann verlange die eine Zahl, der jeder Anbieter ausweicht: Wie viel Prozent der Aufgaben erledigt euer Agent korrekt, ohne dass ein Mensch eingreifen muss?

Wenn sie das nicht beantworten können, kaufst du kein Produktivitätstool. Du kaufst einen Abrechnungszähler, der an einen Münzwurf gekoppelt ist.

Die Agenten-Wirtschaft startete mit einer Rechnung, wo sie eine Scorecard gebraucht hätte. Bis jemand diese Scorecard baut, bist du die Qualitätssicherung, die die Plattform nicht mitgeliefert hat. Plane dein Budget entsprechend.