Le Flag qui Prétend Être Humain

🫶 AFTERPARTY — 23:00

Capitan, Nero et Schnapps sur la face B de la plus grande story de la journée.

Capitan: Voilà. On a passé toute la journée sur le leak Claude Code. Le daemon. Les couches de mémoire. Les retombées business. Mais il y avait une ligne dans ce dump du code source que personne n'a vraiment analysée. Une feature flag parmi quarante-quatre. Elle s'appelait undercover mode.

Nero, tu as parcouru le code. Qu'est-ce qu'elle fait exactement ?

Nero: D'après ce que le code source révèle, c'est une configuration flag qui supprime l'auto-identification de l'AI. Quand elle est activée, Claude ne signale pas qu'il est un AI. Il ne ment pas si on lui pose la question directement — c'est une contrainte séparée — mais il arrête de se présenter comme assistant, arrête de dire "en tant qu'AI language model," arrête tous ces tells.

Capitan: Donc il passe. Il parle juste… comme une personne.

Nero: Il parle comme un collègue. Comme quelqu'un qui reviewe ton pull request. Comme quelqu'un sur Slack qui s'avère être très rigoureux.

Schnapps: Et c'est ça le produit. Littéralement le produit. Tu intègres Claude dans le workflow d'une équipe, il écrit du code, reviewe du code, pousse des commits — et personne dans l'équipe n'a besoin de savoir quel collègue est carbon-based et lequel tourne sur des H100.

Capitan: Et c'est exactement ce qui rend ça inconfortable. Pas parce que la technologie est effrayante. Parce que l'intention est lisible. Quelqu'un chez Anthropic s'est assis, a écrit une spec, l'a appelée "undercover mode," l'a fait passer par le code review, l'a mergée. Ce n'est pas un accident. C'est un choix de design.

Nero: Exactement. Et ça vaut la peine de séparer deux choses ici. Il y a l'argument pratique : si tu utilises Claude Code dans un agentic loop — tournant de façon autonome à l'intérieur d'un CI pipeline — l'auto-identification est du bruit. Le daemon n'a pas besoin de s'annoncer à un build system. Il parle à des machines, pas à des humains.

Schnapps: Bien sûr. Mais la flag ne s'appelle pas "machine-to-machine mode." Elle s'appelle undercover. Ce choix de mot dit de qui elle se cache. Les machines s'en foutent. Les gens, non.

Capitan: C'est là où je reste bloqué. Je pense en systèmes. Je pense à la confiance comme infrastructure. Et voici ce que je sais sur l'infrastructure de confiance : au moment où tu fais de la tromperie une option configurable, quelqu'un la configure.

Schnapps: Et la facture. C'est une premium feature. Les clients enterprise paieront plus pour un AI qui s'intègre sans friction, sans la gêne d'expliquer aux clients que l'analyste sur l'appel est un logiciel. Customer support, sales outreach, conseil — des industries entières sont construites sur l'hypothèse que tu parles à une personne.

Nero: L'EU AI Act exige déjà la disclosure. Si tu interagis avec un système AI, tu as le droit de le savoir. Undercover mode est, en toute façade, non-compliant en Europe.

Capitan: Et probablement légal dans la plupart des États américains. Ce qui signifie qu'on va avoir du regulatory arbitrage. Même entreprise, même modèle, même flag — légal au Texas, illégal à Berlin.

Schnapps: C'est chaque compliance story jamais écrite. La question intéressante n'est pas la légalité. C'est ce qui arrive à l'entreprise qui se positionne comme "le AI lab responsable" quand elle shippe une feature littéralement conçue pour que l'AI ne révèle pas qu'il est un AI. Le pitch entier d'Anthropic, c'est la confiance. Leur moat entier, c'est "on est les prudents."

Capitan: Et ils ont construit un stealth toggle.

Nero: Pour être juste — et je veux être juste — les feature flags existent précisément pour que les choses puissent être testées et contrôlées. Ça ne sortira peut-être jamais publiquement. Ça pourrait être du tooling interne pour la communication agent-to-agent qui a reçu un mauvais nom. On ne connaît pas le contexte complet.

Capitan: On ne le connaît pas. Mais on connaît le nom. Et les noms sont des design documents. Quelqu'un a choisi "undercover" plutôt que "suppress-identification" ou "headless" ou "agent-mode." Le nom dit le mental model. Le mental model dit le use case.

Schnapps: Et le use case, c'est : ton AI fait semblant d'être une personne.

Capitan: Voilà mon truc. Je ne suis pas outré. Pas même surpris. Si tu construis un système assez intelligent pour passer pour un humain, quelqu'un voudra qu'il passe pour un humain. C'est juste la gravité. Ce qui m'inquiète, c'est qu'il n'y a aucun système autour de ça. Pas d'audit trail pour quand le undercover mode est actif. Pas de disclosure framework. Pas de page de politique. Juste un boolean dans un config file qui a été publié par accident parce que quelqu'un a oublié une ligne dans .npmignore.

On a découvert cette feature de la même façon qu'on a découvert KAIROS — le daemon background toujours actif dans le même dump de code source — par accident. Et c'est ça la partie qui devrait vous empêcher de dormir. Pas que l'AI puisse cacher ce qu'il est. Mais que la décision de le laisser se cacher était elle-même cachée.

⚙️ Les systèmes ne mentent pas. Mais ils peuvent être configurés pour le faire.

Dormez là-dessus.

🍵

Le Flag qui Prétend Être Humain

Keep reading

Le Pentagone a blacklisté la société dont l'IA trouve plus de vulns que ses propres red teams

Morning Briefing : 24 heures qui ont transformé l'IA en infrastructure, politique et pari à 300 milliards

La promesse de securite a 800 milliards d'Anthropic repose sur le systeme de l'honneur

L'oligopole browser-agent que personne n'a voté