Le chiffre absent de tous les dashboards d'agents IA compte plus que n'importe quel chiffre que les éditeurs ont choisi d'afficher : est-ce que l'agent a réellement fait ce qu'on lui a demandé ?

Cette semaine, deux nouvelles plateformes ont rejoint le club des métriques de consommation. Le 10 avril, GitHub a ajouté le nombre d'utilisateurs actifs pour son agent cloud. Le 8 avril, Anthropic a lancé les Managed Agents à 0,08 $ par heure de session — facturés à la milliseconde, tokens en sus. Ils rejoignent Google Vertex AI Agent Engine, qui facture au vCPU-seconde depuis sa sortie en GA l'an dernier, et OpenAI Codex, dont la métrique « Success Rate » mesure si l'appel API s'est terminé — pas si le code fonctionne.

C'est comme mesurer la productivité d'un chirurgien au nombre de scalpels qu'il a pris en main.

Quatre plateformes majeures. Zéro taux de réussite des tâches. Zéro score de qualité. Zéro suivi pour savoir si un humain a dû refaire le travail de l'agent.

Pourquoi personne ne mesure ce qui compte

Pas parce que c'est insoluble. Parce que c'est cher, embarrassant, et mauvais pour les résultats trimestriels.

Un chatbot donne une réponse et tu la juges immédiatement. Un agent enchaîne dix étapes — lit un ticket, fouille la doc, écrit du code, ouvre une PR, envoie un ping sur Slack. Chaque étape peut échouer silencieusement. Le résultat final nécessite une expertise métier pour être évalué. Les éditeurs n'ont même pas défini ce que « succès » signifie pour un agent, encore moins mesuré quoi que ce soit.

Et la recherche qui existe n'est pas vraiment le genre de truc qu'on met dans un slide deck.

Le fossé de fiabilité que personne ne publicise

Le 24 février, les chercheurs de Princeton Kapoor et Narayanan ont publié une étude testant 14 modèles d'IA sur 500 exécutions de benchmarks. Leur conclusion : la fiabilité des agents — accomplir la même tâche correctement à chaque fois — progressait à la moitié du rythme des capacités brutes sur les tâches générales. Sur les tâches de service client, la fiabilité ne gagnait qu'à 14% du rythme de la précision. Leur verdict : « Les agents ne savent pas quand ils se trompent. »

C'est ce chiffre qui devrait figurer sur chaque dashboard. Et qui n'y est pas.

Andrej Karpathy — chercheur en IA, co-fondateur d'OpenAI, ex-responsable IA de Tesla — a quantifié ce que ça implique en pratique avec son framework « March of Nines » en novembre 2025 : si chaque étape d'un workflow en dix étapes réussit à 90%, le taux de succès de bout en bout tombe à 35%. Maintenant, imagine cet agent qui tourne en autonomie à 3 h du matin, facturé à l'heure, sans personne pour surveiller.

Les données continuent de s'empiler. Une analyse CodeRabbit publiée le 19 mars a examiné 470 PRs GitHub et constaté que le code généré par l'IA produit 1,7x plus de problèmes par PR que le code humain, avec des vulnérabilités de sécurité 2,74x plus élevées. L'enquête LangChain publiée le 25 mars a interrogé 1 340 praticiens : 57% font déjà tourner des agents en production, mais seulement 52% évaluent les résultats après coup, et à peine 37% surveillent la qualité pendant que les agents tournent en live.

Plus de la moitié de l'industrie a déployé des agents avant de savoir comment vérifier s'ils fonctionnent. Stratégie audacieuse.

Suis l'argent

La facturation à l'usage rapporte autant sur une session ratée de trois heures que sur une session réussie. Un éditeur qui facture 0,08 $ par heure de session n'a strictement aucun intérêt financier à t'aider à découvrir que 40% de ces sessions produisent du déchet. Mesurer les résultats ferait baisser le chiffre que Wall Street surveille : le revenu par client.

Des outils d'observabilité tiers — LangSmith, Braintrust, Helicone — essaient de combler le vide. Mais les quatre plus grandes plateformes d'agents ne livrent rien en natif. Tu as un compteur de vitesse sans destination.

Ce que ça veut dire pour toi

Si ton équipe évalue des agents autonomes — et statistiquement, c'est le cas — exige le seul chiffre que tous les éditeurs esquivent : quel pourcentage de tâches ton agent accomplit-il correctement sans intervention humaine ?

S'ils ne peuvent pas répondre, tu n'achètes pas un outil de productivité. Tu achètes un compteur de facturation branché sur un pile ou face.

L'économie des agents a démarré avec une facture là où il fallait un bulletin de notes. Tant que personne ne construit ce bulletin, c'est toi la couche qualité que la plateforme n'a pas livrée. Budgétise en conséquence.