Ton agent choisit le mauvais outil parce que tu as ecrit une mauvaise description -- et aucune plateforme ne s'en soucie

Tu as branché ton agent IA sur une douzaine d'outils — Slack, GitHub, Jira, une base de données — et tu l'as regardé envoyer avec aplomb un commentaire Jira là où il fallait un message Slack. Ensuite il t'a facturé le privilège. Un mardi classique.

Ton instinct te dit « prends un meilleur modèle ». Mais le modèle ne raisonne pas mal. Il lit la seule information qu'il a sur chaque outil : un champ description — quelques lignes de texte brut — pondu par un dev à 2h du mat' pendant un hackathon. Cette description, c'est un prompt. Tu ne savais juste pas que tu en écrivais un.

Avril 2026 a livré un blitz de plateformes agents. Le 8 avril, Anthropic a lancé Claude Managed Agents — un service cloud gérant l'infrastructure, la gestion d'état et l'orchestration d'outils à 0,08 $ par session-heure. Le 15 avril, OpenAI a mis à jour son Agents SDK avec des environnements sandbox et des garde-fous. Puis lors du Cloud Next (22-24 avril), Google a dévoilé la Gemini Enterprise Agent Platform avec une fonctionnalité phare : Agent Optimizer — un algorithme qui ajuste automatiquement les instructions de l'agent en analysant les échecs réels par clustering.

Trois plateformes en trois semaines, chacune promettant de rendre tes agents plus intelligents. Le hic qu'aucune n'a mentionné : les trois optimisent le prompt système. Aucune ne touche aux descriptions d'outils.

Selon la propre documentation de Google, l'algorithme Agent Optimizer opère exclusivement sur les instructions système. Le champ description dans chaque schéma d'outil — le texte que le modèle lit réellement pour décider quel outil appeler — se trouve dans un angle mort. Les Managed Agents d'Anthropic héritent des descriptions MCP que tu leur donnes. Le SDK d'OpenAI transmet tes schémas de fonctions tels quels. L'optimisation s'arrête au pas de la porte.

Voici le mécanisme. Quand un agent invoque des outils, le LLM reçoit un schéma JSON pour chaque outil enregistré. Chaque schéma inclut un champ description en texte brut. Le modèle les lit tous à chaque appel et choisit la meilleure correspondance. MCP, OpenAI function calling, ADK de Google — même schéma. C'est du prompt engineering déguisé, et aucune plateforme ne valide ces prompts pour toi.

La qualité de ces prompts est sinistre. Un benchmark de mars 2026 a révélé que plus de 97 % des descriptions de serveurs MCP contiennent au moins un problème de qualité — finalité floue, cas limites manquants, sémantique de paramètres ambiguë. On a déjà couvert les effets en aval : la prolifération d'outils plombe la précision, et les équipes qui auditent sérieusement voient des gains immédiats. Mais la cause profonde persiste. Personne ne revoit le texte des descriptions avec la même rigueur qu'une code review.

Pendant ce temps, ces descriptions consomment des tokens que l'outil soit appelé ou non. Rien que le serveur MCP GitHub (93 outils) injecte ~55 000 tokens juste pour les schémas. Empile GitHub, Slack et Sentry : 143 000 tokens. Soit 72 % d'une fenêtre de contexte de 200K bouffés avant que l'agent ne fasse quoi que ce soit d'utile. À 100 requêtes par jour, ça fait 510 $ par mois en surcharge pure de schémas. Tu ne paies pas pour de l'intelligence. Tu paies pour que le modèle relise de la mauvaise documentation à chaque appel.

Et aucun registre ne corrige ça. Selon l'analyse de TrueFoundry d'avril 2026, le MCP Registry officiel n'a « aucune curation, notation ou fonctionnalité de gouvernance intégrée ». Smithery ne propose aucune évaluation de fiabilité. MCP Market ne fournit « aucune garantie de qualité ou de sécurité ». Plus de 10 000 serveurs MCP dans la nature, 97 millions de téléchargements mensuels de SDK, et pas un seul marketplace ne note si la description d'un outil correspond réellement à ce qu'il fait.

Google, Anthropic et OpenAI ont chacun livré des plateformes agents qui présupposent que la couche outils est le problème de quelqu'un d'autre. Google va même optimiser ton prompt système pour toi — sauf que ce n'est pas dans le prompt système que se joue la sélection d'outils. C'est dans le champ description. Et en ce moment, ce champ contient la prose d'un dev écrite à 2h du mat' en hackathon, copiée-collée dans un millier de forks MCP, lue par chaque modèle à chaque appel, et relue par absolument personne.

Alors avant de changer de modèle, de fournisseur, ou de brancher ta 51ᵉ intégration — audite les descriptions que tu livres déjà. Ce sont des prompts que tu ne savais pas écrire, et ils contrôlent chaque décision d'outil de ton agent.

Le prochain facteur de différenciation dans l'écosystème d'outils agents ne sera pas celui qui a le plus d'intégrations. Ce sera celui qui les étiquette correctement. Le premier registre qui impose la qualité des descriptions deviendra le npm-avec-TypeScript du monde agent — et pour l'instant, ce registre n'existe pas.

Ton agent choisit le mauvais outil parce que tu as ecrit une mauvaise description -- et aucune plateforme ne s'en soucie

Keep reading

Construis ton premier serveur MCP en Python : 40 lignes pour passer de copier-coller humain a une IA qui voit tes donnees

La feuille de route MCP 2026 a quatre priorites. La gestion des erreurs n'en fait pas partie

Surcharge d'outils MCP : chaque serveur que tu ajoutes rend ton agent plus bete

Trois SDK d'agents entrent en production. Personne n'en ressort.