Tu as fini de câbler ton premier vrai agent le week-end dernier. Il réserve des réunions via Google Calendar, crée des tickets Linear, titille ta read replica Postgres, et rédige même ses propres emails de relance. Tu l'as démontré lundi. Ton PM a souri, hoché la tête, puis a posé la seule question à laquelle tu ne savais pas répondre : comment tu sais qu'il marche ?

Tu ne sais pas. Personne ne sait. Chaque SDK d'agent majeur livré en avril 2026 a tranquillement supposé que tu avais déjà une stratégie de test — alors qu'en pratique, la plupart des équipes ont un canal Slack baptisé #agent-weirdness et une prière.

Les preuves des deux dernières semaines

Le 8 avril 2026, Anthropic a lancé Managed Agents en bêta publique — 0,08 $ par heure de session en plus du coût des tokens, avec un nouvel onglet Sessions dans la Claude Console pour les traces, les appels d'outils et les coûts. Sept jours plus tard, le 15 avril, OpenAI a mis à jour son Agents SDK avec un sandbox natif (qui exécute le code de ton agent dans une VM isolée pour qu'il ne puisse pas rm -rf ton laptop), l'utilisation d'outils MCP (MCP = Model Context Protocol, un standard de prise universelle pour les outils IA), une config mémoire, et un fichier d'instructions portable AGENTS.md.

Entre les deux : un runtime, un sandbox, des traces, un compteur de facturation. Entre les deux : zéro harnais d'évaluation offline natif. Un harnais d'éval, c'est un test runner pour LLM — l'équivalent de pytest pour agents, le truc qui rejoue des scénarios figés et te dit pass ou fail avant qu'un client ne le fasse à ta place 😹.

Ce dont un test d'agent a vraiment besoin

Pas d'un test unitaire. Un test d'agent a besoin d'un replay déterministe (même input, même trace), de mocking des appels d'outils (ton test ne devrait pas vraiment envoyer d'email à quelqu'un), de grilles LLM-as-judge (un second modèle qui note le devoir du premier), de scoring de trajectoire (a-t-il pris dix étapes quand trois suffisaient ?), et de fixtures de régression rejouables après chaque tweak de prompt.

Personne ne livre ça. Tu bricoles avec cinq vendors :

# Stack typique de test d'agent en 2026 — choisis-en trois, change-les chaque mois
import promptfoo          # régressions YAML (maintenant propriété d'OpenAI)
import braintrust         # LLM-as-judge + CI gates ($)
from langsmith import Client  # scoring de trajectoire pour LangGraph
import phoenix as px      # OpenTelemetry self-host
from deepeval import assert_test  # métriques au format pytest

Cinq outils, cinq surfaces d'auth, cinq factures, deux copies de chaque trajectoire. Aucun format d'échange partagé. Personne à appeler quand le vendor change son API.

Les auteurs des frameworks le savent

LangChain a dit la partie silencieuse à voix haute. Dans un post du 2 avril, leur équipe Deep Agents a détaillé sept catégories d'éval bricolées à la main — ops fichiers, tool use, retrieval, conversation, mémoire, résumé, tests unitaires — toutes exécutées en externe via pytest + GitHub Actions, pas intégrées au SDK. Six jours plus tard, ils qualifiaient les évals de "signal principal pour piloter l'amélioration itérative" — un aveu poli que le harnais a été livré en premier, les tests ont été livrés "bientôt." 😾

La facture du testing bricolé

Les boucles LLM-as-judge empilent le coût des tokens — tu paies maintenant l'agent et son correcteur. Phoenix self-hosted économise de l'argent mais tu gères l'infra. Les vendors managés comme Braintrust ajoutent une facture mensuelle de plus. Et le 9 mars 2026, OpenAI a racheté Promptfoo — l'un des deux CLI open source indépendants appartient désormais à un vendor de modèle. Ta couche de test neutre ne l'est plus.

Que faire avant Google Cloud Next le 22 avril

Choisis un outil cette semaine. Solo ? Promptfoo, encore Apache 2.0 pour l'instant. En équipe ? Braintrust ou LangSmith. Parano / self-hosted ? Arize Phoenix. Écris dix fixtures de trajectoire à partir de vraies tâches utilisateurs. Rejoue-les à chaque changement de prompt ou de modèle.

Parce que ton agent n'a pas de tests unitaires. Celui de ton concurrent non plus. Celui qui livre la primitive d'éval opinionated à l'intérieur d'un SDK s'offre le prochain moat — c'est l'outil que les équipes feront encore tourner en 2028 🐈‍⬛.