Die Supervision Tax: KI-Agents sollten Juniors ersetzen, jetzt verbrennen sie die Seniors

Vor zwei Wochen hast du ein Agent-Pilotprojekt abgesegnet. Vielleicht waren es Anthropics glänzende neue Managed Agents, vielleicht OpenAIs aktualisiertes Agents SDK. Die Vendor-Demo war bildschön: Eine Junior-Aufgabe — Ticket-Triage, Boilerplate-Code, Datenbereinigung — war in 90 Sekunden erledigt. Du hast nachgerechnet. Weniger Junior-Einstellungen, Seniors frei für "wertschöpfende Arbeit". Der ROI sah kugelsicher aus.

Hier kommt die Pointe, die auf keiner Folie stand: Deine Senior Engineers verbringen jetzt mehr Zeit mit dem Review von Agent-Outputs, als Juniors jemals für die Erstellung gebraucht haben. Und das hat niemand eingepreist.

Die Woche, in der tausend Agents losgelassen wurden

Zwischen dem 8. und 15. April sind die drei größten KI-Anbieter voll auf produktive Agents umgeschwenkt — autonome KI-Systeme, die nicht nur Fragen beantworten, sondern tatsächlich eigenständig arbeiten. Anthropic lieferte Managed Agents am 8. April aus, mit Notion, Rakuten und Asana als Launch-Partner. Atlassian integrierte Agents in Confluence am 10. April. OpenAI erweiterte sein Agents SDK am 15. April um Sandbox-Umgebungen und Langzeit-Aufgaben. Enterprise Agents machten den Sprung von "wir experimentieren" zu "es ist in Prod" — über Nacht.

Niemand fragte, was danach passiert.

Die Zahlen, die keiner im Dashboard sehen will

Die Risse zeigten sich schon seit Monaten — wenn man denn die Studien gelesen hätte.

Faros.ai untersuchte über 10.000 Entwickler in 1.255 Teams (veröffentlicht Juli 2025): Einzelne Devs erledigten 21 % mehr Aufgaben und mergten 98 % mehr Pull Requests — Codeblöcke, die zur Überprüfung eingereicht werden. Klingt nach einem Gewinn. Aber die PR-Review-Zeit stieg um 91 %. Bugs nahmen um 9 % zu. Und auf Unternehmensebene? "Jede Korrelation zwischen KI-Adoption und wichtigen Leistungskennzahlen löst sich in Luft auf." Individuelle Geschwindigkeit stieg. Team-Output blieb auf der Stelle stehen. Die Agents haben Arbeit nicht beseitigt — sie haben sie in die Review-Warteschlange nach oben geschoben.

Die Belege sind mittlerweile geläufig — CodeRabbits 1,7× mehr Probleme in KI-generiertem Code (Dezember 2025), Princetons Erkenntnis, dass sich die Zuverlässigkeit von Agents nur halb so schnell verbessert wie ihre Fähigkeiten (März 2026). Wir haben beides auf diesem Kanal behandelt. Die Faros-Daten erklären, warum diese Zahlen im großen Maßstab so reinhauen: Der Flaschenhals ist nicht verschwunden. Er ist von der Produktion ins Review gewandert.

Die strukturelle Falle

Hier ist der Grund, warum sich der ROI umkehrt — und es ist kein Bug, den jemand patchen kann.

Eine Aufgabe zu erledigen erfordert Kompetenz. Die Outputs eines autonomen Systems zu reviewen erfordert Kompetenz plus Urteilsvermögen plus die Fähigkeit, Fehler zu erkennen, bei denen die KI selbstbewusst daneben liegt. Supervision ist strukturell schwieriger als Ausführung.

Addy Osmani nannte das "Comprehension Debt" — die wachsende Kluft zwischen der Menge an vorhandenem Code und dem, was ein Mensch tatsächlich davon versteht — auf O'Reilly Radar am 13. April: "Ein Junior Engineer kann jetzt Code schneller generieren, als ein Senior Engineer ihn kritisch prüfen kann." Eine Anthropic-Studie mit 52 Ingenieuren, veröffentlicht im Februar 2026, ergab, dass KI-unterstützte Devs bei Verständnistests für Code, den sie gerade "geschrieben" hatten, 17 Prozentpunkte schlechter abschnitten.

Die menschlichen Kosten sind bereits messbar. Harvard Business Review berichtete am 5. März, dass 14 % der KI-Nutzer "Brain Fry" erleben — mentale Erschöpfung durch übermäßige KI-Aufsicht. Oversight wurde als die mental belastendste KI-Tätigkeit eingestuft. Mitarbeiter mit hoher Aufsichtslast machten 39 % mehr schwerwiegende Fehler und erlebten 33 % mehr Entscheidungsmüdigkeit. Sie kündigten auch häufiger: 34 % Kündigungsabsicht, gegenüber 25 % bei Mitarbeitern ohne Brain Fry.

Shashi Bellamkonda von der Info-Tech Research Group nannte es "die Oversight Tax" am 5. April. Er zitierte einen Microsoft-Ingenieur, der einen KI-Coding-Agent nutzte und berichtete, er "konnte nicht vom Bildschirm weggehen" — es fühlte sich an, "als würde man von dem Ding mitgeschleift". Der Ingenieur erwartete, Arbeit an einen Junior zu delegieren. Stattdessen bekam er eine nervöse Babysitter-Schicht, bei der die Konsequenzen des Wegschauens unkalkulierbar waren.

Der Preis, den dir keiner genannt hat

Vendoren rechnen nach Nutzung ab, unabhängig von der Qualität des Outputs. Supervisionsstunden für Agents sind im Projektcontrolling unsichtbar — sie tauchen als "Senior-Engineer-Zeit" auf, ohne Zuordnung zu dem Agent, der die Arbeit verursacht hat. Der Expertise-Flaschenhals, der dein Team vor den Agents limitiert hat, limitiert es auch nach den Agents — nur auf einer anderen Ebene.

Gartners Prognose vom Juni 2025, dass über 40 % der Agentic-AI-Projekte bis 2027 eingestampft werden, wirkt langsam konservativ. Die OutSystems-Umfrage vom 13. April ergab, dass 94 % der IT-Entscheider sich bereits über Agent Sprawl Sorgen machen, und nur 12 % eine zentrale Plattform zur Verwaltung haben. Derweil setzen 52 % auf "Human-on-the-Loop Supervision" — die höfliche Management-Formulierung für "ein Mensch starrt auf den Roboter und betet".

Was das für dich bedeutet

Bevor du Agents ausrollst, rechne die Supervisionskosten pro Agent-Stunde durch — nicht den Agent-Stunden-Preis. Wenn deinem Team Senior-Reviewer fehlen, verstärken Agents die Kompetenzlücke, statt sie zu schließen. Der ROI-Rechner deines Vendors hat kein Feld für "Was kostet es, wenn dein bester Ingenieur den ganzen Dienstag damit verbringt, zu überprüfen, ob der Agent nicht still und leise die Authentifizierung zerschossen hat."

Stell deinem Vendor eine einzige Frage: Wie hoch ist das erwartete Supervisionsverhältnis? Wenn er dich nur anstarrt, hast du deine Antwort.

Die erste echte Segmentierung im Agent-Markt wird nicht nach Modellqualität oder Preis verlaufen. Sondern danach, welche Plattform die Supervisionslast tatsächlich reduziert. Diese Metrik existiert noch nicht — und bis es sie gibt, fehlt in jeder ROI-Projektion die größte Variable. Vor zwei Wochen lautete das Versprechen: "Agents ersetzen Junior-Arbeit." Heute lautet die Frage: Wer ersetzt die geistige Gesundheit des Senior Engineers.

Die Supervision Tax: KI-Agents sollten Juniors ersetzen, jetzt verbrennen sie die Seniors

Die Woche, in der tausend Agents losgelassen wurden

Die Zahlen, die keiner im Dashboard sehen will

Die strukturelle Falle

Der Preis, den dir keiner genannt hat

Was das für dich bedeutet

Keep reading

Das Agenten-Paradoxon: Weniger Autonomie, mehr Nutzen

Drei Agent-Plattformen, drei verschiedene Spezies

Deine KI-Agenten funktionieren einzeln super. Zusammen legen sie alles lahm.

Dein KI-Agent hat keine Ruecktaste