Les agents IA gèrent tes incidents — à condition que tes runbooks ne soient pas du folklore

Ton téléphone hurle à 3 h du matin. Tu lances un SSH — une connexion distante au terminal d'un serveur — et tu tapes les trois mêmes commandes que le mois dernier. Tu corriges le même problème que le trimestre précédent. Tes doigts connaissent la solution avant même que ton cerveau ne se réveille.

La répétition, c'est ça le vrai poison. Pas les incidents en eux-mêmes — le fait que tu connais déjà la réponse avant d'ouvrir ton laptop, et que personne n'a jamais transformé cette réponse en script.

Le T1 2026 a rendu l'argument pour l'automatisation plus fort que jamais. Trois plateformes majeures ont lancé des agents IA visant directement cette mémoire musculaire. Le 12 mars, PagerDuty a annoncé son SRE Agent — une IA qui retient les incidents passés, les dépendances et l'historique des conversations, puis opère en quatre phases : détecter, diagnostiquer, remédier, apprendre. Ils ont embarqué plus de 30 partenaires IA, dont des intégrations Claude Code et Cursor. Plus tôt en mars, Datadog a sorti Bits AI SRE v2 — environ deux fois plus rapide que son prédécesseur, bouclant les investigations en 3 à 4 minutes, capable de planifier des investigations, d'évaluer des hypothèses de cause racine concurrentes et d'affiner en temps réel. Grafana Labs, de son côté, déploie ses Assistant Investigations depuis fin 2025 — une architecture multi-agents (plusieurs agents IA collaborent, chacun avec sa spécialité) où un investigateur principal planifie le travail pendant que des agents spécialisés pour Prometheus, Loki, Tempo et Pyroscope — les outils de monitoring de Grafana — collectent des preuves en parallèle.

Trois entreprises, même boucle fondamentale : ingérer les runbooks (instructions de résolution étape par étape rédigées par des humains), identifier des patterns dans les alertes entrantes, exécuter les étapes de remédiation pré-approuvées, escalader uniquement quand le niveau de confiance passe sous un seuil. L'agent PagerDuty génère des runbooks mis à jour après chaque incident. La nouvelle Agent Trace View de Datadog offre une transparence totale sur chaque étape d'investigation, chaque outil appelé, chaque requête effectuée. Les agents Grafana produisent des conclusions et des hypothèses, puis te présentent des recommandations actionnables. La machinerie est bien réelle. Des dizaines de milliers d'investigations ont été traitées par le système Datadog pendant les tests, sur plus de 2 000 environnements clients.

Les premiers chiffres sont solides — dans une fourchette précise. PagerDuty annonce que son agent résout les incidents jusqu'à 50 % plus vite. Datadog cite des réductions du MTTR (mean time to resolution — le temps entre ' quelque chose a cassé ' et ' c'est réparé ') allant jusqu'à 70 % chez les premiers clients, avec des supports presse mentionnant 95 % dans les meilleurs cas. Si on enlève l'optimisme commercial, la fourchette honnête se situe autour de 40 à 60 % d'amélioration, mais uniquement pour les pannes bien documentées et répétitives. Des actions à faible risque, réversibles — montée en charge de serveurs, redémarrages, vidage de cache, bascule de feature flags. Le genre de trucs que ta mémoire musculaire gère déjà à 3 h du matin.

C'est là que la pensée conventionnelle se fissure. Le débat dans l'industrie se concentre sur la capacité de l'IA — l'agent peut-il diagnostiquer correctement, remédier en toute sécurité, apprendre des incidents passés. Mais comme le souligne l'analyse AI SRE de Rootly : ' La résolution d'incidents dépend du savoir tribal encodé dans Slack, les tickets, les runbooks, les commentaires de code et les post-mortems passés. ' La plupart des runbooks ne sont pas de la documentation — c'est du folklore avec de la mise en forme. Les nouvelles recrues ont besoin de 12 à 18 mois pour se sentir à l'aise dans la résolution d'incidents, pas parce que les incidents sont complexes, mais parce que le savoir vit dans la tête des gens. Donne un accès root et des permissions de redémarrage à une machine avec un mauvais runbook, et tu obtiens de la mauvaise remédiation automatisée à la vitesse d'une machine. Le problème de confiance ne concerne pas la capacité de l'IA. Il concerne la qualité de documentation que la plupart des équipes n'ont jamais été contraintes de construire.

Les flux à haut risque — paiements, identité, systèmes de trading — nécessitent toujours des portes d'approbation humaine. Tous les éditeurs le reconnaissent. Le chemin de maturité va de la lecture seule au conseil, puis à l'approbation, puis à l'autonomie totale. La majorité des organisations en sont encore aux deux premières étapes.

Les agents AI SRE ne remplacent pas les ingénieurs d'astreinte. Ils remplacent les 80 % répétitifs et usants de l'astreinte — la partie qui provoque le burnout, la partie qui pousse les bons éléments à démissionner. Les analyses du secteur suggèrent que les organisations adoptant l'IA pour la gestion d'incidents constatent 30 à 50 % de pannes visibles par les clients en moins. Pas parce que l'IA est plus intelligente que toi. Parce qu'elle n'a pas besoin d'un café pour relancer un pod à 3 h du matin.

Le rôle ops évolue. Pas de ' la personne qui répare ' vers ' la personne remplacée par une machine ', mais vers ' la personne qui décide ce qu'il est sûr d'automatiser '. Et ce deuxième métier exige une meilleure documentation que le premier n'en a jamais nécessité. Tes runbooks ne sont plus de simples notes pour le prochain d'astreinte. Ce sont des instructions pour une machine avec un accès root. Rédige-les en conséquence.

Les agents IA gèrent tes incidents — à condition que tes runbooks ne soient pas du folklore

Keep reading

Ton agent IA ne sait pas qu'il est 3h du mat' et que la prod est en feu

Claude Code Routines : Anthropic vient de livrer son premier démon IA

Trois plateformes d'agents lancees en avril. Aucune ne livre de bouton Deploy.

Tes outils d'agent n'ont aucun numero de version. 97 millions de telechargements n'en ont rien a faire.