Fünf Creation-Features wurden zwischen dem 2. und 16. April 2026 ausgeliefert. Null Maintenance-Features. Dieses Verhältnis verrät dir alles darüber, wo der Markt für KI-gestütztes Coding tatsächlich steht — und was er sich weigert, ehrlich einzupreisen.
Cursor 3 (2. April) brachte parallele Agent Tabs — mehrere KI-Agenten, die gleichzeitig in separaten Branches Code schreiben. GitHub Copilot (4. April) führte den Autopilot-Modus ein — Agenten, die ihre eigenen Tool-Calls genehmigen, ohne dich zu fragen. Windsurf 2.0 (10. April) lieferte ein Agent Command Center. Claude Code (14. April) stellte Routines vor — geplante Hintergrund-Agenten, die Code auf Basis von Triggern generieren. OpenAIs Codex (16. April) bekam Multi-Agent-Workflows. Keine einzige Ankündigung befasst sich damit, was mit dem Code passiert, nachdem er live geht.
Das ist kein Versehen. Das ist Produktstrategie.
Die 60 %, die niemand verkauft
Barry Boehm hat 1976 festgestellt, dass Wartung 60–80 % der gesamten Software-Lebenszykluskosten verschlingt. IBM hat das in den folgenden Jahrzehnten immer wieder bestätigt. Nichts in fünfzig Jahren Software Engineering hat dieses Verhältnis umgestoßen.
KI scheint es sogar zu vergrößern.
Eine am 8. April 2026 auf arXiv veröffentlichte Studie analysierte zehn große, mit Cursor generierte Projekte mit durchschnittlich 17.000 Codezeilen. Funktionale Korrektheit: 91 % — der Code funktionierte. CodeScene, ein Tool zur Analyse der Code-Gesundheit, fand 1.305 Design-Probleme in diesen Projekten: 28,4 % duplizierter Code, Methoden mit durchschnittlich 171 Zeilen (gute Praxis empfiehlt maximal 20–30) und eine zyklomatische Komplexität — die Anzahl der Verzweigungspfade durch eine Funktion — von durchschnittlich 17, fast doppelt so hoch wie die empfohlene Obergrenze.
Die Demo läuft. Die Codebase ist strukturell feindlich gegenüber jedem, der sie als Nächstes anfasst — einschließlich der KI, die sie geschrieben hat.
Jeder große Benchmark für KI-Coding verstärkt diesen blinden Fleck. SWE-bench testet Bugfixes. HumanEval testet Funktionsgenerierung. Kein Benchmark fragt: 'Kann dieses Modell sicher ein Feature zu der verwickelten Codebase hinzufügen, die es vor drei Monaten ohne Design-Dokumentation generiert hat?" Ohne diesen Benchmark haben Anbieter null Marktanreiz, für das zu optimieren, was tatsächlich Geld kostet.
Warum KI strukturell nicht warten kann, was sie erschafft
Wartung erfordert drei Fähigkeiten, die bei der Erstellung nicht gebraucht werden: konsistente Design-Entscheidungen über Sessions hinweg, Verständnis dafür, warum Code existiert (nicht nur was er tut), und die Disziplin, zu refactoren statt zu duplizieren.
Aktuelle KI-Tools versagen bei allen dreien.
Jede neue Session beginnt mit null Erinnerung an frühere Design-Entscheidungen. Das Modell generiert, welches Pattern zum aktuellen Prompt passt, nicht welches Pattern es letzten Dienstag verwendet hat. Deshalb fand die arXiv-Studie 28,4 % Duplikation — die KI löst dasselbe Problem jedes Mal anders, weil sie sich nicht erinnert, es schon mal gelöst zu haben.
Der randomisierte kontrollierte Versuch von METR — veröffentlicht im Juli 2025, immer noch die einzige kontrollierte Studie ihrer Art — quantifizierte die Kluft zwischen Wahrnehmung und Realität: 16 erfahrene Entwickler arbeiteten in ihren eigenen Repositories 19 % langsamer mit KI-Tools, glaubten aber, sie seien 20 % schneller. Ein Delta von 39 Prozentpunkten zwischen dem, was Entwickler glauben, und dem, was tatsächlich passiert. In vertrauten Codebases. Bei unbekanntem, KI-generiertem Code hat das niemand gemessen, weil niemand den Benchmark dafür gebaut hat.
Was ein Maintenance-first-Tool tatsächlich bräuchte
Wenn du ein KI-Coding-Tool für die 60–80 % der Arbeit entwerfen würdest, die tatsächlich Geld kostet, würde es nichts ähneln, was heute auf dem Markt ist.
Design-Begründungen als Metadaten. Nicht nur was der Code macht — warum er so strukturiert ist. Jede KI-generierte Funktion sollte einen Datensatz der Einschränkungen, betrachteten Alternativen und Design-Entscheidungen mitführen, die sie hervorgebracht haben. Claude Codes CLAUDE.md ist die nächste Annäherung: persistenter Projektkontext über Sessions hinweg. Aber es ist eine Textdatei, die du von Hand pflegst, kein automatisiertes Architektur-Protokoll.
Konsistenz-Durchsetzung über Sessions hinweg. Ein Maintenance-first-Tool würde erkennen, wenn das Modell ein Pattern einführt, das einem bestehenden widerspricht, und den Konflikt blockieren, bevor Code generiert wird — nicht nachdem ein Mensch ihn reviewt hat. Cursors Codebase-Indexierung (bis zu 500 MB, Sub-Sekunden-Abfragen) liefert die Retrieval-Schicht, die dafür nötig ist. Retrieval ohne Durchsetzung ist eine Bibliothek ohne Bibliothekar.
Refactoring als Standardmodus. Aktuelle Tools optimieren für neuen Code. Ein Wartungs-Tool würde standardmäßig existierenden Code modifizieren — die richtige Stelle finden, um Logik hinzuzufügen, statt eine neue Datei zu generieren. Es würde Duplikation als primäre Metrik neben funktionaler Korrektheit messen und minimieren.
Degradation Gates. Wenn die zyklomatische Komplexität Schwellenwerte überschreitet, wenn Methoden über 30 Zeilen hinaus aufblähen, wenn Duplikationsraten steigen — das Tool verweigert den Commit. Nicht als optionales Plugin. Als Standard. So wie ein Type Checker ungültigen Code blockiert, blockiert ein Maintenance-first-Tool unwartbaren Code.
JetBrains' Langzeitstudie, veröffentlicht am 14. April 2026, verfolgte 800 Entwickler über 151,9 Millionen protokollierte Events und förderte ein Signal zutage, auf das kein Coding-Tool derzeit reagiert: Entwickler verbringen über ein Drittel ihrer Zeit damit, KI-Vorschläge zu verifizieren, und sie machen rund jede fünfte akzeptierte Completion rückgängig, indem sie den Code später wieder löschen. Dieses Löschmuster ist ein kostenloses Trainingssignal — ein Korpus aus 'das Modell hielt das für richtig, der Mensch hat das Gegenteil bewiesen" — das in der Telemetrie jeder IDE schlummert. Jemand könnte eine Feedback-Schleife bauen, die diese Rücknahmen verarbeitet und lernt, von Anfang an wartbaren Code zu generieren. Hat aber niemand, weil Creation-Demos verkaufen. Ein 30-Sekunden-Screencast, wie ein Agent eine App aus einem Prompt hochzieht, bekommt Millionen Views. Ein Screencast, wie ein Agent sorgfältig eine 171-Zeilen-Methode in sechs saubere Funktionen zerlegt, bekommt einen Konferenzvortrag. Vielleicht.
Die Preis-Realität
Wenn du dieses Quartal ein KI-gebautes Projekt freigegeben hast, hier ist, was dir kein Anbieter in sein Angebot schreibt: Rechne mit den dreifachen Erstellungskosten für das erste Jahr Wartung. Wenn dein KI-Agent 17.000 Zeilen in einer Woche geschrieben hat, werden deine Ingenieure drei Wochen damit verbringen, Design-Probleme zu entwirren, bevor sie sicher erweitern können — und dann den Zyklus nach jedem Feature-Ausbau wiederholen.
Der ehrlichere Ansatz: Behandle KI-generierten Code als Wegwerf-Prototyp mit einer Haltbarkeit von sechs Monaten. Demo zeigen, Idee validieren, dann die Teile neu bauen, die ihren Wert bewiesen haben — mit Ingenieuren, die die Architektur verstehen.
Jeder KI-Coding-Anbieter im April 2026 bepreist und vermarktet Erstellung als das Produkt. Der eigentliche Kostentreiber in Software war noch nie die Erstellung. Solange kein Anbieter einen Wartungs-Multiplikator baut — und berechnet — kaufst du die billigste Phase des Prozesses und zahlst den vollen Preis für alles, was danach kommt.

