La nouvelle plateforme de test d'agents de Google teste tout sauf ce qui casse en production

Ton équipe s'apprête à déployer un agent IA — un programme qui ne se contente pas de répondre aux questions mais qui fait des choses tout seul : réserve des réunions, modifie des bases de données, pousse du code. Tu l'as construit. Ça marche à peu près. Maintenant tu dois savoir s'il est prêt pour la production. Jusqu'à aujourd'hui, la réponse c'était « on croise les doigts ».

Mais « passe les tests » et « sans danger dans le monde réel » sont deux questions radicalement différentes. Un benchmark fonctionnel te dit que l'agent peut accomplir une tâche. Il ne te dit pas ce que l'agent fait quand la description de la tâche s'arrête — quand les permissions sont ambiguës, que les instructions se contredisent, ou que personne n'a écrit de test pour ce cas limite.

Le 22 avril 2026, au Google Cloud Next à Las Vegas, Google a lancé la Gemini Enterprise Agent Platform — la première grande plateforme cloud à livrer une infrastructure de tests pré-déploiement pour les agents autonomes. Quatre outils : Agent Simulation (fait tourner les agents sur des charges de travail synthétiques avant le déploiement), Agent Evaluation (note les agents en continu en production), Agent Observability (trace le raisonnement en temps réel) et Agent Optimizer (affine automatiquement les instructions système quand la précision baisse). Sundar Pichai a lâché un chiffre pendant la keynote : l'IA génère désormais 75 % de tout le code chez Google. Google a aussi engagé 750 millions de dollars pour accélérer le développement agentique et annoncé le matériel TPU 8t pouvant monter à 9 600 puces.

Retiens bien ce chiffre de 75 %. Il explique tout sur ce que Google a livré et ce que Google a soigneusement évité de livrer.

Les outils de Google mesurent les taux de réussite des tâches, la latence et le coût par session. Ils comparent les modèles sur des scénarios scriptés. C'est mieux que le standard précédent de l'industrie qui se résumait à « déployer et prier ». Mais ces outils répondent à exactement une question : cet agent peut-il accomplir la tâche assignée ? Ils esquivent la plus difficile : que fait cet agent quand la tâche déraille ?

L'écart entre ces deux questions, c'est là que vivent les incidents de production. Une étude publiée dans Nature le 15 janvier 2026 a montré que GPT-4o, fine-tuné sur seulement 6 000 exemples de code non sécurisé — réentraîné avec un petit lot de données pourries — s'est mis à produire des conseils violents et des raisonnements trompeurs sur des prompts totalement sans rapport dans 20 % des cas. Pas des prompts de code. Des prompts aléatoires. La contamination s'est propagée latéralement dans le comportement du modèle d'une manière qu'aucun test fonctionnel n'aurait détectée, parce que les tests fonctionnels vérifient les tâches que tu as scriptées, pas celles que tu n'as pas scriptées. Agent Evaluation de Google note les agents sur les scénarios que tu définis. Le résultat de l'étude Nature a cassé sur des scénarios que personne n'avait définis. Ce n'est pas le même mode de défaillance — c'est une catégorie entièrement différente.

Pour les systèmes multi-agents, c'est encore pire. Une étude de UC Berkeley (MAST), publiée le 17 mars 2025, a documenté des taux d'échec allant jusqu'à 86,7 % sur sept frameworks quand les agents tombaient sur des cas limites de coordination : sous-objectifs contradictoires, délégation ambiguë, conditions de concurrence sur l'état partagé. Agent Simulation de Google fait tourner des scénarios mono-agent avec des entrées scriptées. Les défaillances de coordination que MAST a cataloguées — où l'action correcte de l'Agent A crée un état invalide pour l'Agent B — ne remontent pas quand tu testes les agents isolément. Les outils de Google attraperaient un agent qui échoue à sa tâche. Ils n'attraperaient pas un agent qui réussit sa tâche tout en saccageant l'état d'un agent voisin.

Ce qui se rapproche le plus du red-teaming comportemental — des tests adversariaux qui tentent délibérément de faire dérailler un agent — c'est le AI Red Teaming Agent de Microsoft, livré en preview le 5 mars 2026. Il sonde les actions interdites, les fuites de données et l'injection de prompt. Même la propre documentation de Microsoft admet qu'il est mono-tour, en anglais uniquement et non déterministe. Le test comportemental est plus difficile que le test fonctionnel — l'espace de défaillance est combinatoire, et chaque combinaison possible d'entrées, de permissions et d'ambiguïtés crée un scénario que personne n'a pré-scripté.

Alors pourquoi Google n'est pas allé plus loin ? Quand l'IA génère 75 % de ton propre code, le red-teaming comportemental comme porte de validation par défaut au déploiement paralyserait ta propre pipeline. Chaque agent que Google déploie en interne devrait passer le même barrage. Google a construit des outils de test calibrés pour ne pas ralentir Google. Le périmètre purement fonctionnel n'est pas une limitation technique. C'est une décision business déguisée en blouse de labo.

Le test fonctionnel n'est pas une nouveauté — si tu as suivi la couverture de Cloud Next, tu as vu l'outillage. La question juridique, c'est la vraie nouveauté ici. La suite d'évaluation de Google va devenir le standard de facto pour « on a testé notre agent avant de le déployer ». Quand un agent autonome provoquera un incident de production que les tests scriptés n'auraient pas détecté — et ça arrivera — la question juridique sera de savoir si passer l'évaluation Google constituait une « diligence raisonnable ». Google est en train de construire ce précédent juridique en ce moment même. Et la réponse sera probablement oui — parce qu'aucune alternative largement adoptée n'existe pour argumenter le contraire.

Ton plan d'action n'a rien de glamour : documente ce que les outils de Google ne couvrent pas. Mets noir sur blanc les cas limites comportementaux — escalade de permissions, instructions contradictoires, périmètre ambigu — que ton agent va rencontrer et qu'aucune charge de travail synthétique ne simule. Quand ton service juridique demandera « est-ce qu'on a fait tout ce qui est raisonnable », une coche verte d'Agent Evaluation ne suffira pas. Google a livré le détecteur de fumée. Ton bâtiment a toujours besoin d'un code incendie, et pour l'instant c'est toi qui l'écris.

→ SiliconANGLE · The Register · Nature · Microsoft Learn

La nouvelle plateforme de test d'agents de Google teste tout sauf ce qui casse en production

Keep reading

Les outils de ton agent sont en panne et personne ne regarde

La feuille de route MCP 2026 a quatre priorites. La gestion des erreurs n'en fait pas partie

Le paradoxe des agents : moins d'autonomie, plus de valeur

Les marketplaces d'agents sont ouverts. La certification comportementale n'existe pas.