Ton cluster Kubernetes tourne grâce à une décennie de cicatrices opérationnelles. Des runbooks forgés à 3h du mat' par des ingénieurs qui juraient de démissionner au lever du soleil. Des SLOs négociés dans des réunions où quelqu'un a littéralement pleuré. Des error budgets défendus avec la férocité du dernier place de parking chez Ikea un samedi après-midi. Chaque conteneur en production a gagné sa place au prix de la souffrance humaine.
Les agents IA de ta boîte, livrés ce trimestre, n'ont rien de tout ça. Health check ? Pas défini. Error budget ? Laisse tomber. Runbook ? Un thread Slack appelé #trucs-ia où le dernier message date de février. Astreinte ? Le stagiaire qui a monté la démo, probablement.
Au Cloud Next '26, le 22 avril, le CEO de Google Cloud Thomas Kurian a positionné les agents aux côtés des VMs et des conteneurs comme des primitives d'infrastructure de première classe — des composants porteurs que ton cloud exécute nativement. La nouvelle Gemini Enterprise Agent Platform débarque avec le vocabulaire que tout ingénieur conteneur reconnaîtra : Agent Runtime, Agent Registry, Agent Gateway, Agent Identity. Google a aussi engagé 750 millions de dollars pour le développement partenaire. Deloitte à lui seul revendique plus de 1 000 agents pré-construits prêts à déployer. Mille agents. Zéro runbook. Magnifique.
"Primitive d'infrastructure", c'est un contrat. Quand tu estampilles quelque chose comme porteur, ça reçoit le traitement complet : SLOs, error budgets, rotations d'astreinte, gestion d'incidents, procédures de redémarrage. Google a livré le tampon. Le traitement ? Non inclus.
Ce que Google a effectivement livré : Agent Observability (traçage visuel de ce qui s'est passé), Agent Evaluation (scoring de performance), Agent Simulation (tests de charge synthétiques). De la plomberie utile. Complètement à côté de la plaque. Le traçage te montre l'autopsie. L'ingénierie de fiabilité détecte la fièvre avant que le patient ne passe en arrêt. Si tu suis ce canal, tu connais l'argument — on l'a posé il y a deux semaines à propos du traçage, et il y a deux jours sur l'aveuglement opérationnel à 3h du mat'. Le keynote de Google a reconditionné les deux lacunes avec un meilleur design de slides et un budget scénique.
Les données ne se sont pas améliorées non plus. Le rapport SRE de Catchpoint de janvier : 13% des organisations se sentent confiantes pour monitorer la fiabilité de l'IA/ML. Un tiers n'a jamais testé de panne en production. Tu as aussi vu les taux d'échec MAST de UC Berkeley — 41 à 86,7% pour les systèmes multi-agents — cités sur ce canal assez souvent pour les réciter en soirée. Mais la vraie histoire, ce n'est plus le chiffre. C'est que personne n'en a produit un meilleur dans les mois qui ont suivi. Personne ne mesure la fiabilité des agents parce que personne n'a défini ce que "fiable" signifie pour un agent. L'absence d'un chiffre de remplacement est le chiffre.
Et voici la comédie noire : les équipes qui déploient des agents le plus vite ont zéro rigueur opérationnelle. Ce n'est pas un bug — c'est une stratégie compétitive. La discipline ops, c'est de la friction, la friction tue la vitesse, la vitesse gagne le trimestre. Alors tout le monde saute rationnellement les trucs ennuyeux et parie que les taux de défaillance catastrophiques des systèmes multi-agents sont une curiosité académique qui ne touchera pas leur stack de production. La confiance est presque belle.
John Furrier de SiliconANGLE l'a formulé ainsi : Google construit "le système d'exploitation pour l'entreprise agentique." Bien sûr. Les systèmes d'exploitation ont besoin d'équipes ops. Google a livré l'OS. L'équipe ops est une fiche de poste qui traîne dans les brouillons de quelqu'un.
"Agent Reliability Engineering" renvoie zéro résultat sur LinkedIn aujourd'hui. Zéro playbook. Zéro certification. Zéro conférence. Google vient de déclarer les agents infrastructure au même niveau que les conteneurs, a soutenu cette déclaration avec trois quarts de milliard de dollars, et la discipline qui rend cette déclaration viable n'existe pas en tant que domaine.
Les agents qui survivront à 2026 ne seront ni les plus malins ni les moins chers. Ce seront ceux pour qui quelqu'un a configuré une astreinte et rédigé un runbook — spécifiquement celui intitulé "quoi faire quand l'agent commence à émettre des remboursements à des clients au hasard à 3h du mat'." Celui qui publie le premier playbook Agent SRE définit le standard de l'industrie. Ce playbook n'existe pas. Les agents sont déjà en production. Dormez bien.



