Anthropic a leaké son propre modèle secret via un CMS mal configuré

Tu fais confiance à Anthropic pour l'avenir de l'IA parce qu'ils ont fait le boulot. Ils ont dit non au Pentagone. Ils publient leurs recherches en sécurité avant de sortir des produits. Toute leur histoire d'origine, c'est ' on a quitté OpenAI parce qu'ils n'étaient pas assez prudents '. Si un labo devait protéger ses propres secrets avec la même paranoïa qu'il applique à l'alignement de l'IA — la science qui consiste à garder les systèmes d'IA honnêtes — tu aurais misé sur celui-là.

Sauf que la culture de la sécurité de l'IA et la sécurité opérationnelle de base se sont révélées être deux muscles complètement différents. La semaine dernière, Anthropic a prouvé qu'elle ne pouvait pas contracter les deux en même temps.

3 000 fichiers, zéro verrou

Le 26 mars, les chercheurs en sécurité Roy Paz (LayerX Security) et Alexandre Pauwels (Université de Cambridge) ont révélé que le CMS d'Anthropic — un système de gestion de contenu, en gros le logiciel qui stocke les brouillons de blog et les fichiers uploadés — contenait environ 3 000 ressources non publiées dans un data store accessible publiquement, sans aucune authentification. Des brouillons d'articles, des images, des PDF, même des documents de congé parental d'employés. Le CMS mettait chaque upload en ' public ' par défaut, sauf si quelqu'un basculait manuellement sur privé. Le genre d'erreur de configuration qu'on apprend à éviter dès sa première semaine d'admin système.

Planqué dans ces brouillons : des descriptions détaillées de Claude Mythos, nom de code interne Capybara. Pas une mise à jour mineure — la propre copie non publiée d'Anthropic le qualifiait de ' plus grand et plus intelligent que nos modèles Opus ' et ' actuellement très loin devant tout autre modèle d'IA en capacités cyber '.

Les brouillons décrivaient Mythos comme scorant ' dramatiquement plus haut ' que Claude Opus 4.6 sur les benchmarks de code, de raisonnement académique et de cybersécurité — des tests standardisés qui mesurent la performance d'un modèle sur des tâches spécifiques. Plus inquiétant encore, le brouillon avertissait que Mythos ' annonce une vague imminente de modèles capables d'exploiter des vulnérabilités d'une manière qui dépasse largement les efforts des défenseurs '. Anthropic a confirmé l'existence du modèle, le qualifiant de ' changement de paradigme ' actuellement en test auprès d'un petit groupe de clients en accès anticipé.

Le détail sur les coûts est révélateur aussi : leurs propres brouillons admettaient que Mythos est ' très coûteux à servir pour nous '. Donc le modèle le plus dangereux qu'ils aient jamais construit est aussi celui qu'ils peuvent à peine se permettre de faire tourner.

Un journaliste a corrigé leur sécurité

Fortune a contacté Anthropic le jeudi 26 mars. Anthropic a verrouillé le data store après l'appel. Pas avant. Pas parce que leur monitoring l'avait détecté. Parce qu'un journaliste leur a dit.

Le porte-parole d'Anthropic a parlé d'' un problème avec l'un de nos outils CMS externes ' et a insisté sur le fait que les documents étaient des ' brouillons préliminaires ' qui ' n'impliquaient pas notre infrastructure centrale, nos systèmes d'IA, les données clients, ni notre architecture de sécurité '. Techniquement vrai. Complètement à côté de la plaque. Personne ne s'inquiétait des données clients. Les gens s'inquiétaient que l'entreprise qui construit des modèles capables de cyberattaques autonomes ne soit pas capable de verrouiller un storage bucket — un conteneur cloud où les fichiers sont stockés.

Autre fuite : les détails d'une retraite privée sur invitation de deux jours pour PDG européens dans un manoir anglais du XVIIIe siècle, avec Dario Amodei offrant des briefings stratégiques en personne. Le labo de sécurité rencontre désormais ses clients enterprise dans des châteaux. Très startup frugale.

Wall Street a traité un brouillon comme une arme

Le 27 mars, les actions cybersécurité se sont effondrées. CrowdStrike a chuté de 7 %. Palo Alto Networks a perdu 6-7 %. Okta a lâché 7 %. L'ETF iShares Cybersecurity a fondu de 4,5 %. SentinelOne et Fortinet ont chacun cédé 3 %.

Pas parce que Mythos a été déployé. Pas parce que quelqu'un s'est fait pirater. Parce que la description d'un modèle suffisamment puissant est désormais un événement de marché. Les investisseurs ont lu le propre langage d'Anthropic — ' très loin devant tout autre modèle d'IA en capacités cyber ' — et ont pricé la possibilité que l'offense cyber propulsée par l'IA puisse commoditiser les produits de cybersécurité premium. Le modèle n'a pas besoin d'être déployé pour déplacer des milliards en capitalisation boursière. Il suffit qu'il existe de manière crédible.

Et chaque concurrent — OpenAI, Google, xAI — sait maintenant exactement ce qu'Anthropic construit, à peu près où ça se situe en benchmarks, et approximativement quand ça sort. C'est du renseignement concurrentiel que les entreprises paient des millions pour obtenir, offert gratuitement via un paramètre par défaut non vérifié.

La rigueur opérationnelle bat les manifestes

Le manifeste sécurité de ton fournisseur d'IA ne vaut rien si son équipe contenu peut mal configurer un storage bucket et leaker toute la roadmap produit. Anthropic publie certaines des meilleures recherches en alignement du secteur. Ils ont aussi laissé leur joyau de la couronne dans un répertoire public parce que quelqu'un n'a pas coché une case.

Juge les entreprises sur leur rigueur opérationnelle, pas sur leurs articles de blog. Dans ce cas, les articles de blog étaient le problème.

Anthropic doit maintenant sortir Mythos avec tous ses benchmarks déjà grillés, l'industrie de la cybersécurité en mode alerte maximale, et l'ironie permanente d'être le labo de la sécurité incapable de sécuriser un CMS. Ils ont construit le modèle le plus puissant qu'ils aient jamais créé. Puis ils ont démontré que le plus gros risque, ce n'était pas le modèle — c'étaient les humains autour.

Anthropic a leaké son propre modèle secret via un CMS mal configuré

3 000 fichiers, zéro verrou

Un journaliste a corrigé leur sécurité

Wall Street a traité un brouillon comme une arme

La rigueur opérationnelle bat les manifestes

Keep reading

100 M$ de credits gratuits, un ban du Pentagone et une seule entreprise qui detient toutes les cles

La promesse de securite a 800 milliards d'Anthropic repose sur le systeme de l'honneur

Anthropic a invente l'etiquette nutritionnelle de l'IA. Puis a livre ses agents sans.

Le Serrurier A Forgé son Propre Crochet