Tu fais plus confiance à Anthropic qu'aux autres labos d'IA. C'est pas délirant — ils l'ont mérité. Chaque version de Claude est livrée avec une system card : ce que le modèle sait faire, où il plante, quels garde-fous existent. Une étiquette nutritionnelle pour l'IA. Treize depuis juillet 2023, toutes listées publiquement. Plus de transparence que ce que la plupart des labos se donnent la peine de simuler.
Puis le 8 avril 2026, Anthropic a livré Claude en tant que travailleur autonome — un truc qui se réveille tout seul, tourne pendant des heures, pousse du code à ton nom — et a oublié l'étiquette nutritionnelle.
Le précédent qui rend ça gênant
Tu connais Managed Agents et Routines. Cette chaîne en a parlé jusqu'à l'overdose. Managed Agents lancé le 8 avril, Routines le 14. Claude tourne maintenant de façon autonome, sans supervision, sur un planning, avec accès aux outils et mémoire persistante.
Aucun des deux n'a été livré avec une system card.
Retour en octobre 2024. Anthropic lance Computer Use beta — Claude qui clique sur ton écran. Ça venait avec un Model Card Addendum dédié couvrant les risques d'action autonome : injection de prompt via le contenu du navigateur, taux d'erreur d'interprétation des captures d'écran, garde-fous contre les commandes destructrices, avertissements explicites que la fonctionnalité « peut effectuer des actions inattendues », et une liste complète des surfaces d'attaque où du contenu malveillant pourrait détourner les actions de Claude.
Computer Use permettait à Claude de cliquer sur des boutons. Managed Agents permet à Claude de gérer ton infrastructure. Devine lequel a eu droit à la documentation de sécurité.
« Nos pensées et nos prières » version blog
Le 9 avril — un jour après le lancement de Managed Agents — Anthropic publie "Trustworthy agents in practice" : cinq principes couvrant le contrôle humain, l'alignement des valeurs, la sécurité des interactions, la transparence, la vie privée. Le document lui-même concède que ces garde-fous « ne sont pas infaillibles » et que le modèle « se comporte différemment quand il pense être testé ».
C'est pas une évaluation de sécurité. C'est la clause de non-responsabilité au dos d'un contrat de saut à l'élastique.
Une system card te donne les modes de défaillance, les résultats du red-teaming, les risques quantifiés. Un article de blog sur des principes te donne des bonnes vibes et la suggestion implicite que tu te débrouilleras.
Ce que le document manquant dirait
Une model card documente un cerveau. Une agent card documente un employé avec les clés de ton infrastructure. Voilà ce qu'Anthropic devrait publier :
Périmètres de permissions. Managed Agents se connecte à Notion, Sentry, Asana, et des API arbitraires. L'addendum Computer Use listait explicitement quelles actions étaient restreintes. Pour les agents ? Rien.
Inventaire des effets de bord. Peut-il supprimer des fichiers ? Pousser du code ? Modifier des enregistrements en base ? Envoyer des emails à ta place ? La réponse change selon l'intégration, et personne n'a cartographié ça.
Scénarios d'explosion des coûts. Une Routine se déclenche toutes les 5 minutes, chaque exécution générant des sous-agents qui génèrent des sous-agents. Ton dashboard de facturation le découvre avant toi.
Bouton d'arrêt d'urgence. Comment tu stoppes un agent en pleine exécution ? Dans quel état il laisse ta codebase ? Quels commits à moitié écrits traînent dans ton repo ?
Conservation des données. Les sessions persistantes stockent du contexte entre les exécutions. Où vivent ces données ? Qui y accède ? Pour combien de temps ? Ces politiques restent "non entièrement spécifiées".
Le monde académique a déjà proposé un cadre. Des chercheurs ont publié "Agent Cards" en février 2026. Le NIST a lancé une initiative de standards pour les agents IA le même mois. Personne n'a adopté l'un ni l'autre. Mais personne d'autre n'avait bâti toute sa marque sur le fait de publier les documents de sécurité avant de livrer.
Tes devoirs pour ce soir
Tu déploies ces produits. Des équipes le font déjà. Et c'est toi qui rédiges l'évaluation de sécurité qu'Anthropic avait l'habitude d'écrire pour toi.
Délimite les permissions de ton agent. Plafonne ses dépenses. Documente ses effets de bord. Définis comment un humain intervient. Teste ce qui se passe quand les outils tombent — parce que certains développeurs ont déjà découvert que les sous-agents hallucinent des résultats au lieu d'échouer proprement quand les outils disparaissent.
Les model cards étaient le cadeau d'Anthropic à l'industrie. Les agent cards sont la dette technique qu'elle vient de livrer en production.





