Du öffnest deine IDE, richtest die KI auf ein Modul und sagst "Refaktoriere das", und gehst weg. Zwanzig Minuten später kehrst du zurück und stellst fest, dass sie Datei 16 so umgeschrieben hat, dass es allem widerspricht, was sie in Datei 3 entschieden hat. Die KI hat es vergessen. Schon wieder.

Vor zweieinhalb Monaten sagte OpenAI, sie hätten dieses Problem gelöst. GPT-5.2-Codex wurde am 14. Januar mit einem Hauptversprechen vorgestellt: Kontext-Kompression — ein Agent, der merkt, was er während langer Sitzungen tut. Die Coding-Community hielt kollektiv die Luft an. Jetzt ist Ende März, der Hype-Zyklus ist abgeschlossen, und wir haben genug Praxiserfahrung gesammelt, um die einzige Frage zu stellen, die zählt: Hat es wirklich geliefert?

Das Angebot war überzeugend. Jede KI hat ein Kontextfenster — ihr Arbeitsgedächtnis, wie viel Text sie auf einmal "sehen" kann. Während einer langen Codierungssitzung füllt sich dieses Fenster. Wenn es überläuft, vergisst das Modell frühere Entscheidungen und beginnt, sich selbst zu widersprechen. Kontext-Kompression ermöglicht es GPT-5.2-Codex, intelligent zu komprimieren, was in diesem Fenster ist — die wichtigen Teile zu behalten und das Rauschen zu verwerfen. In der Theorie ist dies der Unterschied zwischen einem Agenten, der eine 30-minütige Aufgabe bewältigt, und einem, der einen 3-stündigen Refaktoring-Marathon ohne Amnesie übersteht.

OpenAI hat auch die Erkennung von Cybersecurity-Problemen integriert — das Modell entdeckt Schwachstellen während der Code-Generierung und nicht als separaten Scan-Schritt. In Benchmarks erzielte GPT-5.2-Codex Spitzenwerte bei SWE-Bench Pro und Terminal-Bench 2.0. Auch der Windows-Support erhielt einen dedizierten Schub, was nur… mehrere Jahre gedauert hat.

Hier ist, was zwei Monate Produktionseinsatz gezeigt haben. Kontext-Kompression funktioniert — teilweise. Für Sitzungen unter einer Stunde ist der Fortschritt real und spürbar. Dein Agent behält seinen Faden, erinnert sich an Architekturentscheidungen aus Datei 3, wenn er Datei 16 erreicht. Aber überschreite die Zwei-Stunden-Marke bei einer großen Codebasis, und die Risse werden sichtbar. Kompression ist per Definition verlustbehaftet — sie muss etwas verwerfen — und das Urteil des Modells darüber, was "Rauschen" ist, stimmt nicht immer mit deinem überein. Subtile Invarianten werden wegkomprimiert. Typbeschränkungen, die früh in einer Sitzung festgelegt wurden, verschwinden. Es ist besser als das rohe Kontextüberlauf, deutlich besser, aber "gelöst" ist ein weiter Stretch.

Die Sicherheitsansprüche? Ich glaube an sie komplett, wenn jemand einen umfassenden Red-Team-Bericht veröffentlicht, nicht ein Presseschreiben. Die meisten realen Schwachstellen sind keine offensichtlichen Muster, die ein Modell erkennen kann — es sind subtile Architekturmängel, Timing-Fehler, Logikfehler, die in Geschäftsregeln vergraben sind. "Entdeckt Schwachstellen während der Generierung" klingt großartig in einer Keynote. In der Produktion sind die Bugs, die dich wirklich verletzen, die, die kein Modell kommen sieht. Community-Berichte bisher deuten darauf hin, dass es die einfachen Dinge erfasst — SQL-Injektionsmuster, offensichtliche Buffer-Probleme — aber die auf architektonischer Ebene bedingten Schwächen, die tatsächliche Sicherheitsverletzungen verursachen, übersieht.

Strategisch gesehen war dies immer ein Nachholschritt, und der Markt behandelte es dementsprechend. Claude Sonnet 4.5 hatte den Coding-Modell-Thron für Monate vor diesem Launch besetzt. Cursor baute seine eigenen Modelle. Windsurf brachte SWE-1.5 heraus. OpenAI sah zu, wie der agentenbasierte Codierungsmarkt ohne sie davonzog und antwortete. Eine solide Antwort — aber eine Antwort, kein Vorstoß. Zwei Monate später hat sich Claudes Position nicht wesentlich verschlechtert. Die Codierungsagenten-Kriege stellten sich als eine Frage der Werkzeuge und Workflow-Integration heraus, nicht nur der rohen Modellfähigkeit.

Die Preisgestaltung bleibt die schärfste Entscheidung im gesamten Paket: $1,75 pro Million Eingabewörter (ein Token ist ungefähr ¾ eines englischen Wortes — es ist, wie KI Text misst und abrechnet) und $14 pro Million Ausgabewörter. Identisch zu Basis GPT-5.2. Keine Premium-Stufe, kein Upsell. Das ist ein direkter Angriff auf jeden Konkurrenten, der extra für codierungsspezifische Modelle verlangt, und es hat sich gehalten. Windsurf musste SWE-1.5 bis März kostenlos anbieten, nur um im Gespräch zu bleiben — und selbst das hat nicht vollständig funktioniert.

Die Ära des Einheitsmodells ist offiziell tot. OpenAI, das ein speziell für Codierungen entwickeltes Derivat herausbringt, bestätigte, was der Markt bereits herausgefunden hat: Autonomes Code-Schreiben ist eine grundlegend andere Aufgabe als Chatten. Aber die tiefere Lektion aus diesen zwei Monaten ist, dass das Kontext-Management — nicht Intelligenz, nicht Benchmarks — die tatsächliche Engstelle in agentenbasierter Codierung ist. GPT-5.2-Codex hat diese Grenze vorangetrieben. Es hat sie nicht beseitigt. Dein Refakturierungsagent erinnert sich jetzt daran, was er in Datei 3 getan hat. Ob er sich in Datei 47 noch daran erinnert, hängt davon ab, wie viel Glück du hast.