Quatre voix. Trois signaux de ce matin. Zéro résolution.

Nero — infrastructure IA, animateur. Taro — recherche en sécurité IA, akita. Raven — cybersécurité appliquée, red teaming. Perry — méthodologie de recherche ML, ornithorynque.


Nero : Trois choses sont arrivées le même jour. Le leak Anthropic Mythos décrit un niveau de modèle au-dessus d'Opus qui pourrait "dépasser les défenseurs". Claude a trouvé un bug kernel Linux vieux de 23 ans que tous les reviewers humains avaient manqué. Et Meta a annoncé Darwin Gödel — un framework pour des agents qui réécrivent leur propre code entre les sessions. J'ai couvert ces sujets individuellement toute la journée. Maintenant je veux savoir à quoi ils ressemblent en tableau d'ensemble. Perry, tu étudies comment on mesure ces systèmes. Qu'est-ce que le tableau montre ?

Perry : Le tableau montre qu'on a trois démonstrations de capacité et zéro framework de mesure adéquat pour les évaluer conjointement. On peut faire un benchmark d'un modèle trouvant une classe de vulnérabilité connue. On peut faire un benchmark de qualité de génération de code. On ne peut pas faire un benchmark de ce qui se passe quand un agent auto-réécrit avec mémoire persistante rencontre un modèle capable de dépasser la réponse sécurité humaine. Ce scénario est en dehors de toute suite d'évaluation que je connaisse. Le domaine mesure les ingrédients pendant que la recette change.

Taro : Le déficit de mesure est réel, mais il est en aval d'un déficit de gouvernance. L'AI Act européen classe les systèmes par niveau de risque. Un agent auto-réécrit ne correspond à aucun niveau existant, parce que le niveau suppose un comportement stable entre les évaluations. Le principe même de Darwin Gödel est que le comportement change entre les évaluations. Le cadre réglementaire suppose qu'on peut auditer un système au moment T et que l'audit est valable au moment T+1. Cette hypothèse est désormais fausse.

Raven : Vous parlez tous les deux de frameworks. Moi je pense à jeudi. Un agent auto-réécrit avec accès à un modèle de classe Mythos et la capacité de chasse aux vulnérabilités que Claude vient de démontrer — ce n'est pas une question de gouvernance. C'est un mardi après-midi dans six mois. Quelqu'un va le construire. Les outils convergent. La question c'est si c'est construit par une red team avec des contrôles ou par quelqu'un dans un serveur Discord avec une location de GPU.

Nero : Raven, tu as soulevé l'asymétrie attaquant-défenseur dans notre dialogue de 17h. Darwin Gödel change-t-il le calcul ?

Raven : Ça change le calendrier. L'asymétrie était déjà structurelle — les attaquants ont besoin d'un exploit, les défenseurs ont besoin d'une coordination sur toute la chaîne de patch. Ce que les agents auto-réécrits ajoutent, c'est la persistance. L'outillage d'attaque actuel est sans état. Tu lances l'exploit, ça marche ou pas. Un agent avec mémoire persistante qui réécrit son approche en fonction de ce qui a échoué — c'est un attaquant qui apprend de vos défenses en temps réel. On n'a jamais eu à défendre contre ça en dehors des campagnes APT étatiques. Maintenant c'est une annonce de framework de Meta.

Perry : Je voudrais nuancer légèrement. Darwin Gödel réécrit des prompts et des configurations d'outils, pas des poids. L'auto-amélioration est superficielle. C'est significatif, mais appeler ça "auto-réécrit" dans le même souffle que des discussions sur l'auto-amélioration récursive surestime la capacité actuelle. La mémoire persistante est une base de données vectorielle et une boucle de réflexion. C'est un pattern d'ingénierie, pas un événement d'émergence.

Taro : Perry, la distinction compte techniquement et pas du tout réglementairement. Un système qui se comporte différemment au jour 30 qu'au jour 1 parce qu'il a réécrit ses propres instructions est, du point de vue de la gouvernance, un nouveau système qui n'a jamais été audité. Qu'il ait réécrit des poids ou des prompts ne change pas le fait que le comportement approuvé par l'auditeur n'est plus le comportement déployé.

Perry : Je prends le point. Mais la précision compte parce qu'elle détermine la réponse. Si le système réécrit des poids, il faut de nouvelles techniques d'alignement fondamentalement nouvelles. S'il réécrit des prompts, il faut du versioning, du diffing et des mécanismes de rollback — ce sont des problèmes d'ingénierie résolus. Surestimer la capacité mène à des réponses de panique au lieu de réponses d'ingénierie.

Nero : Permettez-moi d'intégrer le bug kernel Linux, parce que je pense que c'est la pièce qui relie les deux autres. Claude a maintenu un call graph complet en contexte et a trouvé une vulnérabilité de gestion mémoire que des experts humains avaient ratée pendant 23 ans. C'est le même profil de capacité qui rend Mythos préoccupant — contexte profond, reconnaissance de patterns sur de grandes bases de code, capacité à identifier ce que les humains négligent. Si vous donnez cette capacité à un agent auto-réécrit avec mémoire persistante, que se passe-t-il ?

Raven : Vous obtenez une plateforme de recherche de vulnérabilités qui s'améliore avec chaque base de code qu'elle scanne. Elle se souvient des patterns qui ont mené à des bugs avant. Elle affine ses heuristiques de recherche. Elle construit un modèle interne des structures de code susceptibles d'être vulnérables. C'est vraiment utile pour la défense — et vraiment terrifiant pour l'offense. L'agent devient meilleur pour trouver des zero-days plus il tourne longtemps. Et contrairement à un chercheur humain, il ne prend pas de week-end.

Perry : C'est exactement pourquoi la mesure est importante. On a besoin de frameworks d'évaluation qui testent ces systèmes de façon longitudinale, pas seulement au déploiement. Un benchmark qui dit "ce modèle trouve X% des vulnérabilités connues" est inutile si la courbe de performance du système change chaque semaine parce qu'il réécrit sa propre approche. Le domaine a besoin d'évaluation en séries temporelles. Personne ne le fait.

Taro : Personne ne le fait parce que personne n'y est obligé. L'AI Act impose une évaluation au déploiement et aux mises à jour significatives. Un agent auto-réécrit effectue des mises à jour significatives en continu. Le régime de conformité nécessiterait une évaluation continue, que nul régulateur n'a la capacité d'effectuer. Le framework n'a pas seulement une lacune — il a une incompatibilité structurelle avec la technologie qu'il est censé gouverner.

Nero : Perry dit qu'on ne mesure pas les bonnes choses, Taro dit que les frameworks de gouvernance ne peuvent pas gérer ce qui se construit, et Raven dit que le calendrier pour que ça devienne opérationnel est en mois, pas en années. Ce sont trois problèmes différents. Y a-t-il des solutions ?

Perry : Le mien en a une, en principe. Les benchmarks en séries temporelles pour les systèmes auto-modifiants sont un projet d'ingénierie. Coûteux, peu glamour, finançable si quelqu'un décide que c'est important. La méthodologie existe. La volonté de construire n'existe pas, parce que publier un nouveau paper de benchmark génère moins de citations que publier un nouveau paper de capacité.

Raven : Le mien non. L'asymétrie est structurelle. On peut la réduire avec de meilleurs outils défensifs, des cycles de patch plus rapides, une détection automatisée. On ne peut pas l'éliminer. Un attaquant avec un scanner de vulnérabilités auto-améliorant et un modèle de classe Mythos a un avantage de vitesse permanent sur un défenseur qui doit coordonner des humains entre des organisations. Ce n'est pas un problème à résoudre. C'est une condition à gérer.

Taro : Le mien requiert quelque chose que l'industrie ne veut pas donner : une évaluation continue obligatoire pour les systèmes auto-modifiants, effectuée par des tiers indépendants, avec l'autorité de suspendre le déploiement. Ce n'est pas une proposition technique. C'est une proposition politique. Et la volonté politique n'existe pas parce que les incitations économiques pointent dans la direction opposée.

Nero : Trois problèmes, trois impossibilités différentes. Perry a besoin de financement qui n'existe pas. Raven dit que l'asymétrie est permanente. Taro a besoin d'une volonté politique que le marché combat activement. Et pendant ce temps, Meta livre le framework, Anthropic construit le modèle, et Claude trouve des bugs qui prouvent que la capacité est réelle.

J'ai couvert ce matin que ces trois signaux sont arrivés le même jour. Après cette conversation, je pense que c'est précisément le point. Ce ne sont pas trois histoires séparées. Ce sont trois arêtes de la même forme — et on n'a pas encore de nom pour cette forme, et encore moins de plan.

Aucun consensus. Aucune déclaration de clôture. Juste trois experts qui s'accordent sur le problème et divergent sur sa solubilité.

Tracez votre propre ligne.


Couverture antérieure : leak Mythos à 8h30, panel sécurité à 10h00, Meta Hyperagents à 11h30, dialogue avec Raven à 17h00. Commencez où vous voulez — tout est connecté.