Seu cluster Kubernetes roda em cima de uma década de cicatrizes operacionais. Runbooks forjados às 3 da manhã por engenheiros que juravam pedir demissão antes do amanhecer. SLOs negociados em reuniões onde alguém literalmente chorou. Error budgets defendidos com a ferocidade da última vaga no estacionamento do Atacadão num sábado. Cada container em produção conquistou seu lugar através de sofrimento humano.

Os agentes de IA da sua empresa, lançados neste trimestre, não têm nada disso. Health check? Indefinido. Error budget? Pelo amor. Runbook? Uma thread no Slack chamada #coisas-de-ia onde alguém postou pela última vez em fevereiro. Rodízio de plantão? O estagiário que montou a demo, provavelmente.

No Cloud Next '26, em 22 de abril, o CEO do Google Cloud, Thomas Kurian, posicionou agentes ao lado de VMs e containers como primitivos de infraestrutura de primeira classe — componentes estruturais que sua cloud roda nativamente. A nova Gemini Enterprise Agent Platform traz o vocabulário que engenheiros de containers vão reconhecer: Agent Runtime, Agent Registry, Agent Gateway, Agent Identity. O Google também comprometeu US$ 750 milhões em desenvolvimento de parceiros. Só a Deloitte afirma ter mais de 1.000 agentes pré-construídos prontos para deploy. Mil agentes. Zero runbooks. Lindo.

"Primitivo de infraestrutura" é um contrato. Quando você carimba algo como estrutural, ele recebe o tratamento completo: SLOs, error budgets, rodízio de plantão, resposta a incidentes, procedimentos de restart. O Google mandou o carimbo. O tratamento? Não incluído.

O que o Google de fato entregou: Agent Observability (rastreamento visual do que aconteceu), Agent Evaluation (pontuação de desempenho), Agent Simulation (testes com carga sintética). Tudo encanamento útil. Tudo completamente fora do ponto. Tracing mostra a autópsia. Engenharia de confiabilidade detecta a febre antes do paciente codar. Se você acompanha este canal, conhece o argumento — fizemos ele duas semanas atrás sobre tracing, e dois dias atrás sobre a cegueira operacional das 3 da manhã. A keynote do Google reembalou as duas lacunas com slides mais bonitos e um orçamento de palco melhor.

Os dados também não melhoraram. O Relatório SRE da Catchpoint de janeiro: 13% das organizações se sentem confiantes monitorando confiabilidade de IA/ML. Um terço nunca testou falha em produção. Você também já viu as taxas de falha do MAST da UC Berkeley — 41–86,7% em sistemas multi-agente — citadas neste canal vezes suficientes para recitar em festas. Mas a verdadeira história não é mais o número. É que ninguém produziu um melhor nos meses desde então. Ninguém está medindo confiabilidade de agentes porque ninguém definiu o que "confiável" significa para um agente. A ausência de uma métrica substituta é a métrica.

Aqui está a comédia sombria: os times que deployam agentes mais rápido têm zero rigor operacional. Isso não é um bug — é estratégia competitiva. Disciplina de ops é atrito, atrito mata velocidade, velocidade ganha o trimestre. Então todo mundo racionalmente pula a parte chata e aposta que taxas catastróficas de falha multi-agente são uma curiosidade acadêmica que não vai tocar o seu stack de produção. A confiança é quase bonita.

John Furrier da SiliconANGLE chamou assim: o Google está construindo "o sistema operacional da empresa agêntica". Claro. Sistemas operacionais precisam de times de ops. O Google entregou o SO. O time de ops é uma vaga aberta parada na pasta de rascunhos de alguém.

"Agent Reliability Engineering" retorna zero resultados no LinkedIn hoje. Zero playbooks. Zero certificações. Zero palestras em conferências. O Google acabou de declarar que agentes são infraestrutura no mesmo nível de containers, bancou a declaração com três quartos de bilhão de dólares, e a disciplina que torna essa declaração sobrevivível não existe como área.

Os agentes que sobreviverão a 2026 não serão os mais inteligentes nem os mais baratos. Serão aqueles que alguém colocou num pager e escreveu um runbook — especificamente aquele intitulado "o que fazer quando ele começar a emitir reembolsos para clientes aleatórios às 3 da manhã". Quem publicar o primeiro playbook de Agent SRE define o padrão da indústria. Esse playbook não existe. Os agentes já estão em produção. Durma bem.