Tu as découpé ton agent monolithique — un programme qui agit à ta place — en un sous-agent de recherche et un sous-agent de code, exactement comme la doc du SDK le suggérait. Délégation ! Division du travail ! La théorie moderne du management, mais pour l'IA. Qu'est-ce qui pourrait mal tourner.
En production, pas mal de choses. Le sous-agent de code ignore joyeusement les contraintes que le sous-agent de recherche a découvertes. L'agent parent hausse les épaules. Toi, tu fixes les logs en te demandant où la moitié du contexte — toutes les informations dont l'IA a besoin pour faire son boulot — s'est volatilisée entre le point A et le point B. Bienvenue dans le téléphone arabe multi-agent.
Trois plateformes, trois façons de perdre tes données
Entre le 9 et le 17 avril 2026, les trois plus grandes plateformes d'IA ont toutes lancé ou mis à jour la délégation de sous-agents — le fait qu'une IA confie du travail à une autre IA — en tant que fonctionnalité de premier plan :
- 9 avril : Anthropic a lancé Managed Agents en bêta publique. Chaque sous-agent reçoit une session neuve — une ardoise de conversation vierge — plus une chaîne d'instructions.
- 15 avril : OpenAI a mis à jour son Agents SDK avec un routage de sous-agents en sandbox. Comportement par défaut : transmettre l'intégralité de l'historique de conversation à l'agent suivant.
- 17 avril : Google ADK (Agent Development Kit), qui avait livré le support multi-agent fin mars, a mis à jour sa doc multi-agent et son modèle d'état de session — en gros un tableau blanc partagé où les agents gribouillent des notes les uns pour les autres. Leur propre doc contient cette perle : "the Root Agent is effectively out of the loop."
Trois plateformes. Trois mécanismes incompatibles. Zéro documentation sur ce qui se perd réellement à la frontière du handoff.
Le téléphone arabe, quantifié
Voici comment chaque plateforme transmet le contexte quand l'Agent A délègue à l'Agent B :
# OpenAI : passe une liste de messages filtrée via HandoffInputData
class HandoffInputData:
input_history: list # historique complet, filtrable
pre_handoff_items: list
new_items: list
# Par défaut : tout passe.
# Mais les input guardrails (filtres de sécurité) s'appliquent
# UNIQUEMENT au premier agent. Les suivants tournent sans filet.
# Anthropic : démarre une session toute neuve par agent
# POST /v1/sessions → contexte frais, ardoise vierge
# "les cerveaux peuvent se passer le relais"
# ...mais le nouveau cerveau démarre avec une amnésie sélective
# Google ADK : dictionnaire d'état partagé
session.state["research_results"] = findings
# L'autre agent lit la clé. Si elle existe.
# Exécution parallèle ? Les race conditions (deux agents
# écrivant sur la même clé en même temps) sont ton problème.
La dégradation n'est pas théorique. Une étude de UC Berkeley de février 2026 portant sur plus de 1 600 traces à travers sept frameworks d'agents a révélé des taux d'échec allant jusqu'à 86,7 %. L'analyse XTrace a montré un agent de recherche produisant 3 000 tokens utiles — des morceaux de mots que l'IA traite — noyés dans 40 000 tokens de contexte total. Soit un ratio de bruit de 93 % au moment du handoff. L'étude a classé les échecs en trois catégories : perte de contexte (l'information disparaît purement et simplement entre les agents), corruption de contexte (l'information arrive mais est sémantiquement déformée), et dilution de contexte (l'information utile est noyée dans le bruit). Un article de Google DeepMind de mars 2026 sur la coordination multi-agent a mesuré une dégradation du raisonnement de 39 à 70 % aux frontières de délégation.
Comme l'a formulé BriefHQ le 11 mars : "Ce qui a disparu en route, ce n'est pas l'information brute. Ce qui a disparu, c'est le contexte de décision."
Le prix de la réparation
Tes options ne sont pas géniales :
- Sérialiser tout le contexte dans le prompt de délégation — ça brûle des tokens (à ~5–25 $ le million pour les modèles de pointe) et ça dévore ta fenêtre de contexte
- Stores de mémoire partagée — ça ajoute du vendor lock-in et un point de défaillance supplémentaire
- Ne pas déléguer du tout — retour aux monolithes single-agent qui s'étouffent sur les workflows complexes
Aucune plateforme ne fournit de mécanisme intégré pour qu'un agent parent vérifie ce que son enfant a réellement reçu par rapport à ce que le parent a envoyé. Tu gères une équipe qui ne peut pas te mettre en copie de ses mails.
Avant de découper
Avant de diviser ton agent en workflow multi-agent, fais un test tout bête : injecte une contrainte spécifique en haut de la chaîne et vérifie si l'agent du bas la respecte. Un truc du genre "ne jamais utiliser pandas" ou "tous les résultats doivent être en unités métriques". Si le dernier agent la viole — félicitations, tu as trouvé ta fuite de contexte.
Va plus loin. Logue le nombre de tokens à chaque frontière de handoff. Si l'Agent A envoie 3 000 tokens de recherche et que le contexte effectif de l'Agent B n'en contient que 200, tu sais exactement où ça fuit. Pas besoin d'un framework de tracing sophistiqué — un print statement à chaque point de délégation raconte toute l'histoire. Fais ça avant de déployer en production. Fais ça avant d'écrire une seule ligne de code d'orchestration.
Chaque plateforme vend la délégation multi-agent comme "gérer une équipe". Sauf que les membres de l'équipe ne peuvent pas lire les notes des autres, le compte-rendu de réunion raccourcit à chaque niveau de l'organigramme, et personne n'a construit de mécanisme pour détecter la perte d'information. Un rapport Gartner d'octobre 2025 prédit que plus de 40 % des projets d'IA agentique seront abandonnés d'ici 2027. En regardant les architectures de handoff que ces trois plateformes ont livrées en avril 2026, ce chiffre paraît optimiste.


