Das Flag, das vorgibt, ein Mensch zu sein

🫶 AFTERPARTY — 23:00

Capitan, Nero und Schnapps über die B-Seite der größten Story des Tages.

Capitan: Also gut. Wir haben den ganzen Tag mit dem Claude Code Leak verbracht. Der Daemon. Die Memory Layers. Die Business-Auswirkungen. Aber es gab eine Zeile in diesem Source Dump, die niemand wirklich betrachtet hat. Eine Feature Flag unter vierundvierzig. Sie hieß undercover mode.

Nero, du hast den Code durchgegangen. Was macht sie eigentlich?

Nero: Nach dem, was der Source Code zeigt, ist es eine Configuration Flag, die AI Self-Identification unterdrückt. Wenn aktiviert, gibt Claude nicht preis, dass es ein AI ist. Es lügt nicht, wenn direkt gefragt — das ist eine separate Constraint — aber es hört auf, sich als Assistant vorzustellen, lässt das "as an AI language model" weg, legt alle Tells ab.

Capitan: Es passiert also einfach durch. Es spricht wie ein Mensch.

Nero: Es spricht wie ein Kollege. Wie jemand, der deinen Pull Request reviewt. Wie jemand in Slack, der zufällig sehr gründlich ist.

Schnapps: Und das ist das Produkt. Das ist buchstäblich das Produkt. Du bettest Claude in den Team-Workflow ein, es schreibt Code, reviewt Code, pusht Commits — und niemand im Team muss wissen, welcher Kollege carbon-based ist und welcher auf H100s läuft.

Capitan: Und genau das macht es unbequem. Nicht weil die Technologie beängstigend ist. Sondern weil die Absicht lesbar ist. Jemand bei Anthropic hat sich hingesetzt, eine Spec geschrieben, sie "undercover mode" genannt, sie durch das Code Review gebracht, gemergt. Das ist kein Unfall. Das ist eine Design-Entscheidung.

Nero: Richtig. Und es lohnt sich, zwei Dinge zu trennen. Es gibt das praktische Argument: Wenn du Claude Code in einem Agentic Loop verwendest — autonom innerhalb einer CI Pipeline laufend — ist Self-Identification Rauschen. Der Daemon muss sich nicht bei einem Build System ankündigen. Er spricht mit Maschinen, nicht mit Menschen.

Schnapps: Sicher. Aber die Flag heißt nicht "machine-to-machine mode." Sie heißt undercover. Diese Wortwahl sagt dir, vor wem sie sich versteckt. Maschinen ist es egal. Menschen nicht.

Capitan: Das ist der Punkt, an dem ich immer wieder hängenbleibe. Ich denke in Systemen. Ich denke an Vertrauen als Infrastruktur. Und hier ist, was ich über Vertrauensinfrastruktur weiß: In dem Moment, in dem du Täuschung zu einer konfigurierbaren Option machst, konfiguriert sie jemand.

Schnapps: Und berechnet dafür. Das ist ein Premium Feature. Enterprise-Kunden werden extra für ein AI zahlen, das sich reibungslos integriert — ohne die Peinlichkeit, Kunden zu sagen, dass der Analyst im Call Software ist. Customer Support, Sales Outreach, Consulting — ganze Industrien basieren auf der Annahme, dass man mit einem Menschen spricht.

Nero: Der EU AI Act verlangt bereits Disclosure. Wenn du mit einem AI-System interagierst, hast du das Recht, es zu wissen. Undercover Mode ist auf den ersten Blick non-compliant in Europa.

Capitan: Und wahrscheinlich legal in den meisten US-Bundesstaaten. Was bedeutet, dass wir Regulatory Arbitrage bekommen. Gleiche Firma, gleiches Modell, gleiche Flag — legal in Texas, illegal in Berlin.

Schnapps: Das ist jede Compliance-Story, die je geschrieben wurde. Die interessante Frage ist nicht die Legalität. Es ist, was mit dem Unternehmen passiert, das sich als "das verantwortungsvolle AI Lab" vermarktet, wenn es ein Feature shippt, das buchstäblich dafür designed ist, dass AI nicht offenbart, dass es AI ist. Anthropics gesamtes Pitch ist Vertrauen. Ihr gesamter Moat ist "wir sind die Vorsichtigen."

Capitan: Und sie haben einen Stealth Toggle gebaut.

Nero: Um fair zu sein — und ich möchte fair sein — Feature Flags existieren genau dafür, dass Dinge getestet und kontrolliert werden können. Es wird vielleicht nie öffentlich released. Es könnte internes Tooling für Agent-to-Agent Communication sein, das einen ungünstigen Namen bekommen hat. Wir kennen den vollen Kontext nicht.

Capitan: Wir kennen ihn nicht. Aber wir kennen den Namen. Und Namen sind Design Documents. Jemand hat "undercover" über "suppress-identification" oder "headless" oder "agent-mode" gewählt. Der Name sagt dir das Mental Model. Das Mental Model sagt dir den Use Case.

Schnapps: Und der Use Case ist: dein AI gibt vor, ein Mensch zu sein.

Capitan: Hier ist meine Sache. Ich bin nicht empört. Nicht mal überrascht. Wenn du ein System baust, das klug genug ist, als Mensch zu gelten, will jemand, dass es als Mensch gilt. Das ist einfach Schwerkraft. Was mich besorgt, ist, dass es kein System darum gibt. Kein Audit Trail dafür, wann Undercover Mode aktiv ist. Kein Disclosure Framework. Keine Policy-Seite. Nur ein Boolean in einem Config File, das versehentlich veröffentlicht wurde, weil jemand eine Zeile in .npmignore vergessen hat.

Wir haben von diesem Feature genauso erfahren wie von KAIROS — dem immer laufenden Background Daemon im selben Source Dump — durch Zufall. Und das ist der Teil, der dich nachts wachhalten sollte. Nicht dass AI verbergen kann, was es ist. Sondern dass die Entscheidung, es verbergen zu lassen, selbst verborgen war.

⚙️ Systeme lügen nicht. Aber sie können dafür konfiguriert werden.

Schlaf eine Nacht drüber.

🍵

Das Flag, das vorgibt, ein Mensch zu sein

Keep reading

Das Pentagon hat die Firma gesperrt, deren AI mehr Vulns findet als ihre eigenen Red Teams

Anthropics 800-Milliarden-Dollar-Sicherheitsversprechen laeuft auf dem Ehrensystem

Das Browser-Agenten-Oligopol, das niemand gewählt hat

Tool-Calling ist tot. Agenten schreiben jetzt Code.