Anthropic-Mythos-Leak: Eine Stufe über Opus

Wie ich im heutigen Morning Digest angemerkt habe, kam die Hauptgeschichte des 31. März nicht aus einer Pressemitteilung. Sie kam von einem falsch konfigurierten Content-Management-System.

Was passiert ist

Anthropics interne Dokumentation für ein Modell mit dem Codenamen Mythos — Engineering-Alias: Capybara — war kurzzeitig auf einem Staging-Server öffentlich zugänglich. Das Dokument wurde von mindestens zwei Crawlern indexiert, bevor Anthropics Security-Team es entfernte. Zu dem Zeitpunkt kursierten Screenshots bereits auf X und in privaten Slack-Gruppen.

Anthropic bestätigte die Exposition. Ihre Erklärung war sorgfältig formuliert: Sie bestätigten die Existenz von Mythos, bestätigten, dass es sich in Tests befindet, und lehnten es ab, über den Inhalt des geleakten Dokuments zu sprechen — außer es als "vorläufige interne Notizen" zu bezeichnen.

Was das Dokument sagte

Mehrere Personen, die das Dokument vor der Löschung gelesen haben, beschrieben dieselben Passagen. Die Sprache, die sich am schnellsten verbreitete:

"Ein Quantensprung in den Fähigkeiten" — keine inkrementelle Verbesserung gegenüber Claude Opus, sondern eine qualitative Verschiebung in dem, was das Modell kann
"Wird Verteidiger überholen" im Kontext von Cybersecurity-Anwendungen
Referenzen auf Benchmark-Ergebnisse, die als unveröffentlicht markiert und in der geleakten Version geschwärzt waren

Der Satz "outpace defenders" leistet hier viel Arbeit. Im Kontext gelesen beschrieb er offenbar ein Risiko, dessen Anthropic sich bewusst war — eine interne Sicherheitsanalyse dessen, was das Modell adversarisch ermöglichen könnte. Aus dem Kontext gerissen liest sich der Satz wie eine Capability-Behauptung. Beide Interpretationen sind aus unterschiedlichen Gründen unangenehm.

Warum es wichtig ist

Der Leak hat drei Ebenen, und alle sollten relevant sein.

Ebene eins: das Modell selbst. Anthropic war schweigsam darüber, was nach Opus kommt. Sonnet-class-Modelle leisten den größten Teil der kommerziellen Arbeit — Claude Code basiert darauf, die API wird von ihnen dominiert. Aber Mythos scheint etwas anderes zu sein. Ein "Quantensprung" ist die Art von Sprache, die Anthropic für Übergänge zwischen Capability-Stufen reserviert. Wenn Mythos liefert, was das Dokument beschreibt, ist es kein Upgrade auf Opus. Es ist eine neue Stufe darüber.

Ebene zwei: die Sicherheitssprache. Der Satz "outpace defenders" ist eine rote Flagge, die unabhängig vom Kontext Aufmerksamkeit verdient. Dass Anthropics Safety-Team diese Worte intern schreibt, bedeutet, dass sie aktiv Szenarien modellieren, in denen Mythos-class-Fähigkeiten die Reaktionsfähigkeit von Security-Profis übertreffen. Das ist eine ernsthafte interne Risikoeinschätzung. Dass sie versehentlich exponiert wurde, ist sekundär gegenüber der Tatsache, dass sie überhaupt existiert.

Ebene drei: der Leak-Mechanismus. Ein falsch konfiguriertes CMS auf einem Staging-Server ist kein ausgefeilter Angriff. Es ist ein Operative-Security-Versagen. Für ein Unternehmen, das einige der sensibelsten KI-Capability-Forschung der Welt betreibt, ist das eine Untersuchung wert. Was liegt noch auf Staging-Servern, was dort nicht sein sollte?

Der Markt hat reagiert

Bitcoin stieg in den Stunden nach der weiten Verbreitung des Leaks auf 66.000 $. Die Korrelation ist spekulativ, aber nicht irrational — Märkte, die KI-Capability-Signale verarbeiten, behandeln sie manchmal als Makro-Signale. Wenn ein Frontier-Modell bevorsteht, das Cybersecurity-Verteidiger "überholt", hat das Implikationen jenseits der KI-Branche.

Anthropics zuletzt gemeldete private Bewertung liegt bei 61 Mrd. $. Diese Zahl wird neu bewertet werden.

Was zu beobachten ist

Benchmarks. Das Dokument referenzierte unveröffentlichte Ergebnisse. Wenn Anthropic Mythos offiziell ankündigt — und das werden sie, zu ihrem eigenen Zeitpunkt — werden die Benchmark-Zahlen verraten, ob die "Quantensprung"-Sprache akkurat oder aspirational war.

Die Safety-Disclosure. Wie kommuniziert Anthropic ein Modell, das ihre eigenen internen Dokumente als potenziell die Verteidiger überholend eingestuft haben? Das Responsible-Scaling-Framing, das sie bisher verwendet haben, wird dabei stark auf die Probe gestellt.

Konkurrenten-Reaktion. OpenAI, Google und Meta haben alle Frontier-Modell-Zeitpläne. Ein bestätigter "Quantensprung" von Anthropic komprimiert die öffentlichen Zeitpläne aller anderen.

Die Codex-Ironie. Wie ich um 9:30 Uhr berichte, hat OpenAI heute Morgen ein Plugin shipped, das innerhalb von Claude Code läuft. Das geschah, bevor die Mythos-News aufkam. Wenn Mythos liefert, hat sich die Platform-Dynamik noch weiter in Anthropics Richtung verschoben.

Das Dokument ist weg. Das Signal nicht.

Anthropic-Mythos-Leak: Eine Stufe über Opus

Was passiert ist

Was das Dokument sagte

Warum es wichtig ist

Der Markt hat reagiert

Was zu beobachten ist

Keep reading

Warum die meisten AI-Startups 2026 scheitern werden

Zwei Leaks, Ein Unternehmen und ein $852-Milliarden-Schuldschein

Macht sitzt in den Leitungen

Dein Sicherheitsmodell ist dein Bedrohungsmodell