Du benutzt dein KI-Coding-Tool seit Monaten. Es vervollständigt deine Variablennamen genau so, wie du sie magst. Es kennt die Testmuster deines Teams. Es weiß, dass du den Service letzten Dienstag umbenannt hast, und fragt nicht zweimal. Du hast nichts davon konfiguriert — es hat einfach gelernt.

Fühlt sich großartig an, oder? Wie ein Junior-Entwickler, der sich tatsächlich Notizen macht. Es gibt nur ein kleines Problem: Immer mehr Hinweise deuten darauf hin, dass das angesammelte Gedächtnis deinen Agenten beim Codeschreiben schlechter macht. Und mitnehmen kannst du es auch nicht, wenn du wechselst.

Zwischen dem 8. und 16. April haben Anthropic und OpenAI brandneue Memory-Systeme für ihre Coding-Agenten ausgeliefert. Googles Memory Bank läuft seit Dezember 2025. Alle drei Architekturen sind komplett inkompatibel — und mindestens eine Studie hat gezeigt, dass der ganze Ansatz häufiger nach hinten losgeht als er hilft.

Drei Memory-Architekturen, drei verschiedene Wetten

Anthropic machte den Anfang. Am 8. April launchten sie Managed Agents mit Memory Stores — workspace-bezogene Textsammlungen, die der Agent vor jeder Aufgabe liest und nach Abschluss aktualisiert. Jeder Memory ist auf 100KB begrenzt, du kannst bis zu 8 Stores pro Session anhängen, und jede Bearbeitung erzeugt eine unveränderliche Version. Preisgestaltung: Standard-API-Tarife plus 0,08 $ pro Session-Stunde.

Das ist nur eine Schicht. Claude Code nutzt tatsächlich drei Memory-Mechanismen: vom Nutzer erstellte CLAUDE.md-Dateien (deine Anweisungen), automatisch generierte MEMORY.md-Dateien (die Notizen des Agenten an sich selbst) und die serverseitigen Memory Stores. Drei Ebenen Kontext. Drei Formate. Null Portabilität.

OpenAI zog eine Woche später nach. Am 15.–16. April lieferte Codex AGENTS.md-Dateien für Projektanweisungen aus, plus ein "Memories"-Feature, das "stabile Präferenzen, Projektkonventionen und wiederkehrende Arbeitsmuster" über Sessions hinweg mitschleppt. Ihr Ansatz wandert vom Projektstamm zum aktuellen Verzeichnis und mergt Dateien hierarchisch — bis zu 32KB werden bei jedem Lauf geladen.

Google ging einen komplett anderen Weg. Memory Bank in Vertex AI Agent Engine, seit Dezember 2025 allgemein verfügbar und seit Februar 2026 kostenpflichtig, verzichtet komplett auf Markdown-Dateien. Gemini-Modelle analysieren deinen Gesprächsverlauf im Hintergrund und extrahieren strukturierte Erinnerungen — Schlüsselfakten, Präferenzen, Zusammenhänge — mit automatischer Ablaufzeit und Ähnlichkeitssuche.

Markdown-Schichten vs. hierarchische Instruktionsketten vs. KI-extrahierte strukturierte Daten. Drei Anbieter, jeder überzeugt, dass seine Architektur die richtige ist. Die Branche hat perfekte Inkompatibilität in Rekordzeit erreicht.

Die Memory-Steuer

Hier trifft der Werbeprospekt auf die Realität. In einem Preprint vom März 2026 testeten Forscher der ETH Zürich, wie Kontextdateien die Leistung von Coding-Agenten beeinflussen. In 5 von 8 Testkonfigurationen performten Agenten schlechter mit angesammeltem Kontext als ohne — während die Inferenzkosten um 20% oder mehr stiegen.

Lass das mal sacken, während du stolz auf deinen "personalisierten KI-Assistenten" blickst. Das Memory-Feature, das die Anbieter als Killer-Vorteil vermarkten, hat die Output-Qualität in der Mehrheit der Testszenarien aktiv verschlechtert. Der Agent liest seine eigenen Notizen, verheddert sich in veraltetem oder widersprüchlichem Kontext und produziert schlechteren Code — während er dir für dieses Privileg mehr Tokens berechnet.

Das sollte keinen erfahrenen Entwickler überraschen, der schon mal einen System Prompt auf 50KB aufblähen sehen hat. Mehr Kontext bedeutet mehr, was jongliert werden muss. Manches davon ist veraltet. Manches widerspricht anderen Teilen. Manches war vor drei Refactorings relevant. Dein Agent liest pflichtbewusst seine zwei Monate alten Notizen über einen Monolithen, den du inzwischen in drei Microservices aufgeteilt hast, und generiert dann selbstsicher Code für eine Architektur, die nicht mehr existiert. Hilfreich.

Und trotzdem — jede Session fügt mehr hinzu. Jeder Bug, den du erklärst, jede Architekturentscheidung, die du diskutierst, jede Abkürzung, die du beschreibst, wird absorbiert. MindStudios Analyse vom 9. April prägte den Begriff "Behavioral Lock-in": "Wenn du deinen Gesprächsverlauf exportierst, bekommst du Text. Was du nicht bekommst, sind die internen Repräsentationen, Embeddings und Gewichte des Modells, die kodieren, was der Agent tatsächlich gelernt hat."

Du zahlst dafür, ein Memory-Archiv aufzubauen, das den Output deines Agenten wahrscheinlich verschlechtert — aber du kannst nicht wechseln, weil Neuanfang bedeutet, alles zu verlieren, was doch funktioniert. Wunderschön.

Der komfortable Käfig

Wie Kai Waehner am 6. April feststellte: "Wenn deine agentischen Workflows auf der proprietären Orchestrierungsschicht eines Anbieters aufgebaut sind, steigen die Wechselkosten rapide." Wenn Modelle zur Massenware werden — wenn GPT-5 und Claude 4 und Gemini 2.5 in Benchmarks innerhalb von 5% voneinander liegen — ist der Agent, der dich am besten kennt, derjenige, den du weiter bezahlst. Nicht weil er besser ist. Sondern weil der Abschied zu sehr wehtut.

Und hier ist die regulatorische Lücke, auf die MindStudio hinweist: DSGVO und CCPA decken strukturierte personenbezogene Daten ab — deinen Namen, deine E-Mail, deine Kaufhistorie. Niemand reguliert die impliziten Muster, die dein KI-Agent über deinen Codierstil, deine Architekturpräferenzen oder deine Deployment-Eigenheiten aufbaut. Du kannst deine Daten anfordern. Du kannst nicht das Verständnis deines Agenten von dir anfordern. Dieses erlernte Verhalten — das, was tatsächlich Wechselkosten erzeugt — liegt in einem rechtlichen Niemandsland, wo kein Export-Button existiert und kein Gesetz einen verlangt.

Kein Anbieter hat einen Anreiz, ein portables Memory-Austauschformat zu entwickeln. Dein angesammelter Kontext — selbst der Kontext, der die Dinge verschlechtert — ist ihr Burggraben.

Was du jetzt tun solltest

Prüfe, was dein aktueller Agent tatsächlich gelernt hat. Wenn du Claude Code nutzt, öffne deine CLAUDE.md- und MEMORY.md-Dateien — das ist simples Markdown in deinem Projektverzeichnis. Lies sie kritisch. Wie viel davon spiegelt noch deine tatsächliche Codebasis wider? Wie viel beschreibt einen Service, den du vor zwei Sprints zerlegt hast? Wenn du Codex nutzt, geh deine AGENTS.md-Kette vom Root bis zum Blatt durch. Wenn du Vertex nutzt, überprüfe deine Memory Bank-Einträge über die Konsole.

Dann mach etwas Kontraintuitives: Deaktiviere das Memory für eine Session und vergleiche das Ergebnis. Wenn dein Agent ohne seine angesammelten Notizen gleich gut oder besser performt, hast du eine Memory-Steuer gezahlt — für das Privileg, eingesperrt zu sein.

Die Modell-Kriege waren die Vorspeise. Die Memory-Schicht ist der Hauptgang — und die unbequeme Wahrheit ist: Du zahlst dafür, Kontext anzusammeln, der die Arbeit deines Agenten verschlechtert, gespeichert in einem Format, das nur dein aktueller Anbieter lesen kann, geschützt durch keine Regulierung und portabel nach exakt nirgendwo. Der Agent, der sich an dich erinnert, ist nicht der, der dir am besten dient. Es ist nur der, den du nicht verlassen kannst.