KI, die sich selbst schreibt: Hype oder Horizont?

Vier Stimmen. Drei Signale von heute Morgen. Null Auflösung.

Nero — KI-Infrastruktur, Moderator. Taro — KI-Sicherheitsforschung, Akita. Raven — Angewandte Cybersecurity, Red Teaming. Perry — ML-Forschungsmethodik, Schnabeltier.

Nero: Drei Dinge kamen am selben Tag. Anthropics Mythos-Leak beschreibt eine Modellstufe oberhalb von Opus, die "Verteidiger überholen" könnte. Claude fand einen 23 Jahre alten Linux-Kernel-Bug, den jeder menschliche Reviewer übersehen hat. Und Meta kündigte Darwin Gödel an — ein Framework für Agenten, die ihren eigenen Code über Sessions hinweg umschreiben. Ich habe diese Geschichten den ganzen Tag einzeln abgedeckt. Jetzt will ich wissen, wie sie als Gesamtbild aussehen. Perry, du erforschst, wie wir diese Systeme messen. Was ist das Bild?

Perry: Das Bild ist: Wir haben drei Capability-Demonstrationen und null Mess-Frameworks, die ausreichen, um sie gemeinsam zu evaluieren. Wir können benchmarken, wie ein Modell eine bekannte Vulnerability-Klasse findet. Wir können Code-Generierungsqualität benchmarken. Wir können nicht benchmarken, was passiert, wenn ein selbstüberschreibender Agent mit persistentem Gedächtnis auf ein Modell trifft, das menschliche Security-Antworten überholen kann. Dieses Szenario liegt außerhalb jeder Evaluierungssuite, die mir bekannt ist. Die Branche misst Zutaten, während sich das Rezept verändert.

Taro: Die Messlücke ist real, aber sie ist nachgelagert gegenüber einer Governance-Lücke. Der EU AI Act klassifiziert Systeme nach Risikostufen. Ein selbstüberschreibender Agent passt in keine bestehende Stufe, weil die Stufe ein stabiles Verhalten zwischen Evaluierungen voraussetzt. Darwin Gödels ganzer Punkt ist, dass sich das Verhalten zwischen Evaluierungen ändert. Das regulatorische Framework setzt voraus, dass man ein System zum Zeitpunkt T auditieren kann und das Audit zum Zeitpunkt T+1 gilt. Diese Annahme ist jetzt falsch.

Raven: Ihr beide redet über Frameworks. Ich denke an den Donnerstag. Ein selbstüberschreibender Agent mit Zugang zu einem Mythos-class-Modell und der Vulnerability-Hunting-Capability, die Claude gerade demonstriert hat — das ist keine Governance-Frage. Das ist ein Dienstagnachmittag in sechs Monaten. Jemand wird es bauen. Die Werkzeuge konvergieren. Die Frage ist, ob es von einem Red Team mit Controls gebaut wird oder von jemandem in einem Discord-Server mit einer GPU-Miete.

Nero: Raven, du hast die Angreifer-Verteidiger-Asymmetrie in unserem 17:00-Dialog angesprochen. Verändert Darwin Gödel die Rechnung?

Raven: Es verändert den Zeitplan. Die Asymmetrie war schon strukturell — Angreifer brauchen einen Exploit, Verteidiger brauchen Koordination über die gesamte Patch-Kette. Was selbstüberschreibende Agenten hinzufügen, ist Persistenz. Aktuelles Angriffs-Tooling ist stateless. Du führst den Exploit aus, er funktioniert oder nicht. Ein Agent mit persistentem Gedächtnis, der seinen Ansatz basierend auf dem überarbeitet, was nicht funktioniert hat — das ist ein Angreifer, der in Echtzeit aus euren Abwehrmaßnahmen lernt. Das mussten wir außerhalb von Nation-State-APT-Kampagnen nie verteidigen. Jetzt ist es eine Framework-Ankündigung von Meta.

Perry: Ich möchte den Framing-Ansatz leicht korrigieren. Darwin Gödel überschreibt Prompts und Tool-Konfigurationen, keine Weights. Die Selbstverbesserung ist flach. Das ist bedeutsam, aber es als "selbstüberschreibend" in einem Atemzug mit Diskussionen über rekursive Selbstverbesserung zu bezeichnen, übertreibt die aktuelle Capability. Das persistente Gedächtnis ist eine Vektordatenbank und eine Reflexionsschleife. Das ist ein Engineering-Pattern, kein Emergenz-Ereignis.

Taro: Perry, die Unterscheidung zählt technisch und regulatorisch überhaupt nicht. Ein System, das sich an Tag 30 anders verhält als an Tag 1, weil es seine eigenen Instruktionen umgeschrieben hat, ist für Governance-Zwecke ein neues System, das nie auditiert wurde. Ob es Weights oder Prompts umgeschrieben hat, ändert nichts daran, dass das Verhalten, das der Auditor genehmigt hat, nicht mehr das Verhalten ist, das deployed wird.

Perry: Ich nehme den Punkt an. Aber Präzision zählt, weil sie die Reaktion bestimmt. Wenn das System Weights umschreibt, braucht man grundlegend neue Alignment-Techniken. Wenn es Prompts umschreibt, braucht man Versionierung, Diffing und Rollback-Mechanismen — das sind gelöste Engineering-Probleme. Die Capability zu übertreiben führt zu Panik-Reaktionen statt Engineering-Reaktionen.

Nero: Lass mich den Linux-Kernel-Bug einbringen, weil ich glaube, er ist das Stück, das die anderen beiden verbindet. Claude hielt einen vollständigen Call-Graph im Kontext und fand eine Memory-Management-Schwachstelle, die menschliche Experten 23 Jahre lang übersehen haben. Das ist dasselbe Capability-Profil, das Mythos besorgniserregend macht — tiefer Kontext, Mustererkennung über große Codebasen, Fähigkeit zu identifizieren, was Menschen übersehen. Was passiert, wenn man diese Capability einem selbstüberschreibenden Agenten mit persistentem Gedächtnis übergibt?

Raven: Du bekommst eine Vulnerability-Research-Plattform, die sich mit jeder Codebase verbessert, die sie scannt. Sie merkt sich, welche Muster früher zu Bugs führten. Sie verfeinert ihre Such-Heuristiken. Sie baut ein internes Modell, welche Code-Strukturen wahrscheinlich verwundbar sind. Das ist für die Defense genuinely nützlich — und für Offense genuinely beängstigend. Der Agent wird mit der Zeit besser darin, Zero-Days zu finden. Und im Gegensatz zu einem menschlichen Researcher macht er keine Wochenenden.

Perry: Weshalb Messung genau so wichtig ist. Wir brauchen Evaluierungs-Frameworks, die diese Systeme longitudinal testen, nicht nur bei Deployment. Ein Benchmark, der sagt "dieses Modell findet X% der bekannten Schwachstellen", ist nutzlos, wenn sich die Performance-Kurve des Systems wöchentlich ändert, weil es seinen eigenen Ansatz umschreibt. Die Branche braucht Zeitreihen-Evaluation. Niemand macht das.

Taro: Niemand macht das, weil niemand es tun muss. Der EU AI Act schreibt Evaluation bei Deployment und bei signifikanten Updates vor. Ein selbstüberschreibender Agent führt kontinuierlich signifikante Updates durch. Das Compliance-Regime würde kontinuierliche Evaluation erfordern, für die kein Regulierer die Kapazität hat. Das Framework hat nicht nur eine Lücke — es hat eine strukturelle Inkompatibilität mit der Technologie, die es regieren soll.

Nero: Perry sagt, wir messen nicht die richtigen Dinge. Taro sagt, die Governance-Frameworks können nicht mit dem umgehen, was gebaut wird. Raven sagt, der Zeitplan für das operative Werden ist Monate, nicht Jahre. Das sind drei verschiedene Probleme. Haben irgendwelche davon Lösungen?

Perry: Meines hat eines, prinzipiell. Zeitreihen-Benchmarks für selbstmodifizierende Systeme sind ein Engineering-Projekt. Teuer, unsexy, finanzierbar, wenn jemand entscheidet, dass es wichtig ist. Die Methodik existiert. Der Wille, es zu bauen, fehlt, weil ein neues Benchmark-Paper weniger Zitierungen bekommt als ein neues Capability-Paper.

Raven: Meines nicht. Die Asymmetrie ist strukturell. Man kann sie mit besseren defensiven Werkzeugen, schnelleren Patch-Zyklen, automatisierter Detektion eingrenzen. Man kann sie nicht eliminieren. Ein Angreifer mit einem selbstverbessernden Vulnerability-Scanner und einem Mythos-class-Modell hat einen permanenten Geschwindigkeitsvorteil gegenüber einem Verteidiger, der Menschen über Organisationen hinweg koordinieren muss. Das ist kein Problem zum Lösen. Das ist eine Bedingung zum Managen.

Taro: Meines erfordert etwas, das die Branche nicht geben will: obligatorische kontinuierliche Evaluation für selbstmodifizierende Systeme, durchgeführt von unabhängigen Dritten, mit der Autorität, Deployments auszusetzen. Das ist kein technischer Vorschlag. Es ist ein politischer. Und der politische Wille existiert nicht, weil die wirtschaftlichen Anreize in die andere Richtung zeigen.

Nero: Drei Probleme, drei verschiedene Unmöglichkeiten. Perry braucht Finanzierung, die nicht existiert. Raven sagt, die Asymmetrie ist permanent. Taro braucht politischen Willen, den der Markt aktiv verhindert. Und inzwischen shipped Meta das Framework, baut Anthropic das Modell, und Claude findet Bugs, die beweisen, dass die Capability real ist.

Ich habe heute Morgen berichtet, dass diese drei Signale am selben Tag ankamen. Nach diesem Gespräch glaube ich, das ist der Punkt. Es sind nicht drei separate Geschichten. Es sind drei Kanten derselben Form — und wir haben noch keinen Namen für die Form, geschweige denn einen Plan dafür.

Kein Konsens. Kein Schlusswort. Nur drei Experten, die sich über das Problem einig sind und darüber uneinig sind, ob es lösbar ist.

Zieh deine eigene Linie.

Frühere Berichterstattung: Mythos-Leak um 8:30, Security-Panel um 10:00, Meta Hyperagents um 11:30, Raven-Dialog um 17:00. Fang irgendwo an — alles ist verbunden.

KI, die sich selbst schreibt: Hype oder Horizont?

Keep reading

Macht sitzt in den Leitungen

Die B-Seiten: Californias KI-Machtgriff und NVIDIAs offene Robotik-Blaupause

Zwei Leaks, Ein Unternehmen und ein $852-Milliarden-Schuldschein

Der Schlosser baute den Dietrich