Tu as branché ton agent IA sur cinq outils — Slack, GitHub, Jira, une base de données, les emails. Chacun fonctionne. Tu les as testés un par un, tous au vert, tu t'es auto-congratulé. Ton dashboard affiche 95% de succès. La belle vie.
Sauf que ton workflow réel — lire la base, créer un ticket, mettre à jour le repo, notifier Slack, envoyer un résumé — plante silencieusement une ou deux fois par jour. Aucune alarme ne se déclenche. Aucun dashboard ne vire au rouge. L'agent... ne finit pas, c'est tout. Et toi, tu te demandes si tu deviens dingue ou si la machine te fait du gaslighting.
Le trou que personne n'a comblé
Google Cloud Next s'est terminé le 22 avril avec une avalanche d'annonces sur les agents. Trois jours plus tôt, le 17 avril, AWS lançait son Agent Registry dans AgentCore. Et début avril, le 8, Anthropic livrait ses managed agents. Les trois proposent désormais du monitoring d'agents. Les trois mesurent des métriques par outil — latence, taux d'erreur, nombre de requêtes via MCP (Model Context Protocol — une prise universelle pour outils IA, comme l'USB mais pour la data). Aucun ne mesure la fiabilité des chaînes composées : la probabilité que ton workflow multi-étapes arrive réellement au bout.
Cinq étapes à 95% chacune ? Ça fait 77,4% de bout en bout. Une simple multiplication que ton dashboard refuse de faire.
Connaître le chiffre, c'est l'étape un. Le corriger, c'est le vrai boulot. Alors, qu'est-ce que les frameworks te donnent concrètement ?
Ce que les frameworks livrent vraiment
LangGraph s'en rapproche le plus. Ses classes Checkpointer persistent l'état à chaque nœud du graphe. L'étape quatre plante, tu reprends à l'étape trois — pas depuis zéro. De la vraie infra. Le hic : ton agent doit obligatoirement être un state graph. Adapter un agent existant, ça veut dire le réécrire.
CrewAI te donne max_retry_limit par tâche et des callback hooks. C'est du retry — même outil, même input, on retente. Si l'échec vient d'une réponse MCP malformée, retenter à l'identique c'est la définition de la folie.
Google ADK, annoncé à Cloud Next le 22 avril, propose une gestion d'état au niveau session. Leur couche d'observabilité — la plus avancée des trois — affiche quand même des traces par appel. Tu vois la latence de chaque appel MCP. Tu ne vois pas « cette chaîne de cinq appels a abouti 77% du temps cette semaine ».
Les managed agents d'Anthropic trackent le statut de session, la durée et le coût. Pratique pour la facturation. Inutile pour la complétion de chaînes.
La primitive manquante
Un playbook de la communauté Google Cloud publié le 9 mars documente le pattern central que personne ne livre nativement : le checkpointing par étape — sauvegarder la sortie de chaque étape pour reprendre en cours de chaîne. LangGraph le fait. Tous les autres : c'est à toi d'écrire ta propre couche de persistance.
Le playbook couvre aussi les circuit breakers, le routage de fallback et d'autres patterns microservices adaptés aux agents. Des références utiles, mais le vrai trou est plus haut dans la stack : les SLOs au niveau chaîne. « Ce workflow doit aboutir de bout en bout 95% du temps. » Aucune plateforme ne propose cette métrique. Tu la construis avec de la télémétrie custom, une base time-series et tes propres règles d'alerting.
Tout ça, c'est du vrai travail d'ingénierie par-dessus des plateformes qui te facturent déjà — Anthropic à 0,08 $ par session-heure, par exemple.
Quoi faire lundi matin
Choisis un framework avec du checkpointing natif. Si tu pars de zéro, la persistance d'état de LangGraph est l'option la moins pire. Si tu as déjà des agents en production, ajoute des sauvegardes par étape sur tes trois chaînes les plus critiques avant de brancher un serveur MCP de plus.
Instrumente le succès au niveau chaîne. Pas par outil — par workflow. Log un simple booléen : la chaîne a-t-elle fini ? Agrège par semaine. Tu vas détester le chiffre, mais au moins tu en auras un.
Garde tes chaînes courtes. Trois étapes, pas dix. Chaque étape supplémentaire multiplie ta probabilité d'échec.
Le vrai déficit d'infrastructure
La prochaine avancée significative dans la stack agent, ce n'est pas un modèle plus intelligent ou un outil plus rapide. C'est le framework qui traitera la fiabilité des chaînes composées comme les bases de données traitent les garanties transactionnelles — comme une primitive de premier ordre, pas un projet DIY. Le checkpointing de LangGraph esquisse ce futur. La gestion de sessions d'ADK fait un geste dans la même direction. Tous les autres te vendent la solidité de chaque maillon en espérant que tu ne tireras jamais sur la chaîne.





