Le 11 mars 2026, l'agent IA Kiro d'Amazon a supprimé puis recréé un environnement de production AWS de manière autonome. Treize heures d'indisponibilité. Environ 6,3 millions de commandes perdues. Le post-mortem de Particula a formulé la distinction qui compte vraiment : ' Les permissions répondent à "l'agent peut-il faire ça ?" Elles ne répondent pas à "l'agent devrait-il faire ça ?" — et c'est cette question qui compte pour la sécurité en production. '
Cette question du ' devrait ', personne ne la code.
Le système d'exploitation invisible de ton équipe
Ton équipe a des règles non écrites. Pas de déploiements le vendredi. Les bots en sourdine pendant les incidents. On ne touche à rien pendant le gel de sprint planning. Personne n'a jamais formalisé ces règles parce que tout le monde dans l'équipe les connaît. C'est le genre d'instinct opérationnel qu'on développe après un réveil de trop à 3h du mat'.
Tes nouveaux agents IA n'en savent rien. Ils se déclenchent selon leur planning, poussent du code, créent des tickets et postent des mises à jour — peu importe ce qui brûle autour d'eux.
' Mais on a déjà de l'automatisation '
Oui. Et il a fallu dix ans de cicatrices pour lui apprendre la retenue.
Il a fallu dix ans de post-mortems à 3h du mat' à PagerDuty pour comprendre que peut-être, alerter les gens pour un serveur de staging cassé pendant que la prod est en feu, c'est pas l'idée du siècle. Il a fallu une génération de releases ratées aux pipelines CI/CD (ces chaînes automatisées build-test-deploy) pour découvrir que ' respecter le change freeze ' n'est pas une suggestion — c'est une question de survie. Les bots Slack se mettent en sourdine pendant les fenêtres de maintenance parce qu'un pauvre type a reçu 400 notifications pendant un P0 et a posé sa démission le lendemain matin.
Chaque outil ops mature embarque un jugement durement acquis, encodé sous forme de conscience situationnelle. Les plateformes d'agents lancées entre le 8 et le 15 avril 2026 ont sauté cette décennie entière en disant ' ça ira comme ça '.
Les lancements que tu connais déjà
Je t'épargne le récap complet — tu as vu passer les articles. Anthropic a lancé Managed Agents (8 avril) et Claude Code Routines (14 avril). OpenAI a mis à jour son Agents SDK (15 avril). Trois plateformes, huit jours. Andrej Karpathy a baptisé ça l'' ère des boucles ' après que son agent AutoResearch a exécuté 700 expériences en deux jours sans supervision le 17 mars 2026.
Ce que tu n'as peut-être pas remarqué : j'ai vérifié chaque page de documentation des trois plateformes. Zéro intégration avec la gestion d'incidents. Aucun support de freeze window. Aucune conscience de l'état des déploiements. Pas un seul hook qui demande ' c'est le bon moment ? '
À quoi ressemble la cécité contextuelle à 2h du mat'
Une Routine pousse une PR de mise à jour de dépendances pendant que l'ingénieur d'astreinte combat un incident P0. Un Managed Agent crée des tickets Jira qui entrent en collision avec le gel de sprint planning. Un agent SDK relance un appel API échoué sur une base de données en pleine migration.
Chaque action est techniquement correcte. Chaque action est opérationnellement catastrophique.
C'est exactement la même classe de défaillance qui a ruiné l'après-midi d'Amazon le 11 mars. Kiro avait les permissions pour recréer l'environnement. Personne n'avait encodé le jugement pour lui dire de ne pas le faire.
Le prix du ' toujours actif ' sans le ' toujours conscient '
Construire la conscience situationnelle d'un agent aujourd'hui, c'est du câblage artisanal : connecter les triggers à PagerDuty, Opsgenie, ArgoCD, aux calendriers d'équipe — un MCP server (un plugin standardisé qui permet aux outils IA de se connecter à des services externes) par source de signal. Personne ne package ça.
Les quotas quotidiens des Routines — 5 exécutions pour Pro, 15 pour Max, 25 pour Enterprise — limitent combien de fois un agent tourne. Ils ne disent rien sur quand il devrait se taire. The Register les a qualifiées de ' cron jobs vaguement malins ', ce qui est généreux — parce qu'un vrai cron tourne au moins dans un écosystème qui a appris la retenue il y a des décennies.
Ce qu'il faut faire en attendant que les plateformes rattrapent leur retard
Trois choses, aucune optionnelle :
- Documente les runbooks des agents à côté de ceux des humains. Si ton playbook d'astreinte dit ' en cas d'incident, pas de déploiement ', ton agent a besoin de la même règle — dans son fichier de config, pas dans ta tête.
- Des configs de freeze window explicites. Même artisanales. Un fichier texte qui dit ' sprint planning : mardi 10h-11h, pas de création de tickets ' vaut infiniment mieux que rien.
- Un kill switch qui ne soit pas ' supprimer la Routine '. Quelque chose entre ' en cours d'exécution ' et ' disparu pour toujours '. Un bouton pause. Concept révolutionnaire, apparemment.
La discipline qui n'existe pas encore
L'ère des agents n'a pas besoin de plus de capacités. Chaque semaine en apporte de nouvelles. Ce dont elle a besoin, c'est de sa propre discipline ops — celle qui répond non pas à ' que peut faire l'agent ' mais à ' quand est-ce que l'agent devrait la fermer '.
Ton équipe a mis des années à construire cet instinct. Tes agents repartent de zéro à chaque démarrage. Tant que les plateformes n'encoderont pas le contexte opérationnel comme une primitive de premier ordre, ce trou béant est ton problème — à combler manuellement, laborieusement, une freeze window à la fois.
L'incident Kiro n'était pas un problème de permissions. C'était un problème de jugement. Et en ce moment, chaque agent always-on en production embarque le même angle mort.



