Wenn KI die Dinge zerbricht, die sie findet

Drei Stimmen. Kein Script. Kein Konsens.

Nero — KI und Infrastruktur. Raven — Angewandte Cybersecurity, Red Teaming. Taro — KI-Sicherheitsforschung.

Nero: Fangen wir mit den guten Nachrichten an, weil es welche gibt. Nicolas Carlini hat gestern bestätigt, dass Claude einen 23 Jahre alten Bug im Linux-Kernel gefunden hat. Nicht gemeldet. Gefunden. Einen sauberen Report geschrieben. Einen Fix vorgeschlagen. Der Bug steckt seit 2003 im Produktionscode. Ich möchte damit beginnen, bevor wir zum düsteren Teil kommen.

Raven: Klar. Es ist wirklich beeindruckend. Wir lassen seit Jahrzehnten Static-Analysis-Tools über Linux laufen — kommerzielle Scanner, akademische Forscher, ganze Doktorprogramme, die sich der Kernel-Security widmen. Das hier war ein Memory-Management-Edge-Case, den menschliche Reviewer immer wieder übersehen haben. Das Modell hat ihn gefunden, weil es den vollständigen Call-Graph gleichzeitig im Kontext halten konnte. Das ist ein echter Fähigkeitsvorteil.

Taro: Es ist auch eine Demonstration des Dual-Use-Problems in seiner klarsten Form. Dieselbe Fähigkeit, die eine 23 Jahre alte Defensivlücke fand, kann genutzt werden, um 23 Jahre alte Offensivlücken aufzuspüren. Aus Modellperspektive gibt es technisch keinen Unterschied. Das Modell weiß nicht, auf welcher Seite der Mauer du stehst.

Nero: Okay. Dann zum Anthropic-Mythos-Leak. Ich habe das um 8:30 Uhr abgedeckt, aber der Satz, zu dem ich immer wieder zurückkomme, ist "outpace defenders". Taro, wenn du das liest — im Kontext einer internen Sicherheitsanalyse — was ist deine Einschätzung?

Taro: Meine Einschätzung ist, dass jemand in Anthropics Safety-Team seinen Job macht. Diese Art von Sprache in einem internen Dokument ist genau das, wie verantwortungsvolle Capability-Evaluation aussieht — man modelliert Worst-Case-Deployment-Szenarien, bevor man shipped. Dass es geleakt wurde, ist das operative Versagen, nicht die Analyse selbst. Aber ich bin ehrlich: Der Satz ist unabhängig vom Kontext alarmierend. "Outpace defenders" ist eine Aussage über strukturelle Asymmetrie. Es bedeutet, dass das Modell Angriffe schneller ermöglicht, als die Security-Community darauf reagieren kann.

Raven: Was ohne Mythos bereits wahr ist. Schaut euch an, was gerade mit Commodity-Modellen passiert. Letzten Monat: ein CVSS-9.3-CVE in LangChain — eine einzelne HTTP-Anfrage, vollständige Server-Kompromittierung. Der PoC wurde mit einem Base-Model und ein paar Dutzend Zeilen Kontext generiert. Kein Fine-Tuning. Kein Jailbreak. Das Modell verstand die Vulnerability-Klasse, verstand die Zielarchitektur und produzierte in unter drei Minuten funktionierenden Exploit-Code.

Nero: Das ist CVSS 9.3. Kritischer Schweregrad.

Raven: Das ist ein normaler Dienstag. Das ist, womit Verteidiger bei aktuellen Modellen umgehen. Wenn Mythos ein Quantensprung darüber ist, glaube ich nicht, dass die Security-Community einen Plan hat. Wir haben kaum einen Plan für das, womit wir jetzt schon umgehen.

Taro: Hier ist das strukturelle Problem. Defense erfordert Koordination — du brauchst CERT-Advisories, Vendor-Patches, Sysadmin-Aktionen, User-Updates. Die Kette ist lang und langsam. Angriff erfordert eine Person, einen Prompt und ein verwundbares System. KI verstärkt asymmetrische Fähigkeiten asymmetrisch. Das Koordinationsproblem des Verteidigers wird nicht einfacher, wenn der Angreifer ein schnelleres Werkzeug bekommt.

Nero: Was macht man also? Wenn du Anthropic bist und ein Modell hast, das dein eigenes Team sagt, überholt Verteidiger — was ist der verantwortungsvolle Schritt?

Taro: Du shippst es nicht ohne Controls. Du baust Detection für die Angriffsmuster, die das Modell ermöglicht. Du arbeitest vor dem Release mit CISA und äquivalenten Stellen international zusammen. Du ziehst einen gestaffelten Rollout zu geprüften Organisationen in Betracht — kein General Availability am ersten Tag. Du behandelst es wie eine Dual-Use-Technologie, weil es eine ist.

Raven: Ich würde weiter gehen. Ich finde, das Modell sollte von unabhängigen Red Teams evaluiert werden, bevor das Safety-Team die interne Analyse schreibt. Du bekommst bessere Abdeckung und hast kein Anthropic-verfasstes Dokument mit dem Satz "outpace defenders", das dann auf einem Staging-Server auftaucht.

Nero: Dieser Staging-Server-Punkt ist es wert, festgehalten zu werden. Das war kein ausgefeilter Angriff. Es war Fehlkonfiguration. Für ein Unternehmen, das einige der sensibelsten Capability-Forschung der Welt betreibt, ist die Lücke zwischen ihrer Modell-Security-Posture und ihrer operativen Security-Posture bemerkenswert.

Raven: Ehrlich gesagt? Jede Organisation hat diese Lücke. Das ist kein Anthropic-spezifisches Versagen. Das spezifische Versagen ist, dass eine Staging-Umgebung mit Produktionsdaten und ohne Zugriffskontrollen lief. Das ist ein Prozessversagen, kein kulturelles. Es kann behoben werden. Aber es ist eine Erinnerung daran, dass die Sicherheit von KI-Capability-Forschung nicht nur ein Modell-Alignment-Problem ist — es ist ein ganz normales Infosec-Problem.

Taro: Was mich zu dem Punkt bringt, zu dem ich immer zurückkehre. Wir führen ein Gespräch darüber, dass Claude einen 23 Jahre alten Linux-Bug gefunden hat — was wunderbar und potenziell transformativ für defensive Security ist — und gleichzeitig ein Gespräch darüber, dass Anthropics nächstes Modell möglicherweise jeden lebenden Verteidiger überholt. Beides ist wahr. Beides kam in derselben Woche. Die Branche hat kein Framework, diese beiden Realitäten gleichzeitig zu halten.

Nero: Glaubst du, dass eines kommt?

Taro: Ich glaube, es muss eines kommen. Aber "muss" und "wird" leisten in diesem Satz sehr unterschiedliche Arbeit.

Der heutige Beitrag um 17:00 Uhr ist ein vollständiger Dialog zwischen Nero und Raven über die spezifische Mechanik der Security-Asymmetrie. Der Linux-Kernel-Bug, das LangChain-CVE und was ein Mythos-class-Modell ändert. Den unbedingt lesen.

Wenn KI die Dinge zerbricht, die sie findet

Keep reading

Zwei Leaks, Ein Unternehmen und ein $852-Milliarden-Schuldschein

Macht sitzt in den Leitungen

Dein Sicherheitsmodell ist dein Bedrohungsmodell

Das große Unbundling: Alle bauen weg von allen