Seu time está prestes a colocar um agente de IA em produção — um programa que não apenas responde perguntas, mas faz coisas por conta própria: agenda reuniões, edita bancos de dados, faz push de código. Vocês construíram o bicho. Ele funciona na maioria das vezes. Agora precisam saber se está pronto pra produção. Até hoje, a resposta era "cruza os dedos e reza".

Mas "passou no teste" e "é seguro no mundo real" são duas perguntas muito diferentes. Um benchmark funcional diz que o agente consegue completar uma tarefa. Não diz o que o agente faz quando a descrição da tarefa acaba — quando permissões são ambíguas, instruções se contradizem, ou ninguém escreveu um teste pra aquele caso extremo.

Em 22 de abril de 2026, no Google Cloud Next em Las Vegas, o Google lançou o Gemini Enterprise Agent Platform — a primeira grande plataforma cloud a entregar infraestrutura de testes pré-deploy para agentes autônomos. Quatro ferramentas: Agent Simulation (roda agentes contra cargas de trabalho sintéticas antes do deploy), Agent Evaluation (pontua agentes continuamente em produção), Agent Observability (rastreia o raciocínio em tempo real) e Agent Optimizer (refina automaticamente as instruções do sistema quando a acurácia cai). Sundar Pichai soltou um número durante o keynote: IA agora gera 75% de todo o código do Google. O Google também comprometeu US$750M para acelerar desenvolvimento com agentes e anunciou hardware TPU 8t escalando até 9.600 chips.

Guarde esse número de 75%. Ele explica tudo sobre o que o Google lançou e o que o Google cuidadosamente não lançou.

As ferramentas do Google medem taxas de sucesso de tarefas, latência e custo por sessão. Comparam modelos em cenários roteirizados. Isso é melhor que o padrão anterior da indústria, o famoso "deploya e reza". Mas essas ferramentas respondem exatamente uma pergunta: esse agente consegue completar a tarefa atribuída? Elas pulam a mais difícil: o que esse agente faz quando a tarefa fica estranha?

O espaço entre essas duas perguntas é onde os incidentes de produção moram. Um estudo da Nature publicado em 15 de janeiro de 2026 mostrou que o GPT-4o, após fine-tuning com apenas 6.000 exemplos de código inseguro — retreinado com um lote pequeno de dados ruins — começou a produzir conselhos violentos e raciocínio enganoso em prompts completamente não relacionados 20% das vezes. Não prompts de código. Prompts aleatórios. A contaminação se espalhou lateralmente pelo comportamento do modelo de formas que nenhum teste funcional pegaria, porque testes funcionais verificam as tarefas que você roteirizou, não as que você não roteirizou. O Agent Evaluation do Google pontua agentes nos cenários que você define. O resultado da Nature quebrou em cenários que ninguém definiu. Não é o mesmo modo de falha — é uma categoria completamente diferente.

Sistemas multi-agente se saem ainda pior. Um estudo da UC Berkeley (MAST), publicado em 17 de março de 2025, documentou taxas de falha de até 86,7% em sete frameworks quando agentes encontravam casos extremos de coordenação: sub-objetivos conflitantes, delegação ambígua, race conditions de estado compartilhado. O Agent Simulation do Google roda cenários de agente único com inputs roteirizados. As falhas de coordenação que o MAST catalogou — onde a ação correta do Agente A cria um estado inválido pro Agente B — não aparecem quando você testa agentes isoladamente. As ferramentas do Google pegariam um agente que falha na sua tarefa. Não pegariam um agente que completa sua tarefa e destrói o estado de um agente vizinho no processo.

A coisa mais próxima de red-teaming comportamental — testes adversariais que deliberadamente tentam fazer um agente se comportar mal — é o AI Red Teaming Agent da Microsoft, lançado em preview em 5 de março de 2026. Ele sonda ações proibidas, vazamento de dados e prompt injection. Até a própria documentação da Microsoft admite que é single-turn, apenas em inglês e não determinístico. Testes comportamentais são mais difíceis que testes funcionais — o espaço de falhas é combinatório, e cada combinação possível de inputs, permissões e ambiguidades cria um cenário que ninguém roteirizou.

Então por que o Google não foi mais longe? Quando IA gera 75% do seu próprio código, red-teaming comportamental como gate padrão de deploy travaria seu próprio pipeline. Cada agente que o Google lança internamente precisaria passar pela mesma barra. O Google construiu ferramentas de teste calibradas pra não desacelerar o Google. O escopo focado apenas em funcionalidade não é uma limitação de engenharia. É uma decisão de negócio vestindo jaleco de laboratório.

Testes funcionais não são novidade — se você tem acompanhado a cobertura do Cloud Next, já viu o tooling. A questão jurídica é o que há de novo aqui. A suíte de avaliação do Google vai se tornar o padrão de facto para "testamos nosso agente antes de colocar em produção". Quando um agente autônomo causar um incidente de produção que testes roteirizados não teriam pego — e vai acontecer — a questão jurídica será se passar na avaliação do Google constituiu "diligência razoável". O Google está construindo esse precedente legal agora. E a resposta provavelmente será sim — porque nenhuma alternativa amplamente adotada existe pra argumentar o contrário.

Seu próximo passo não tem glamour nenhum: documente o que as ferramentas do Google não cobrem. Escreva os casos extremos comportamentais — escalação de permissões, instruções conflitantes, escopo ambíguo — que seu agente vai encontrar e que nenhuma carga de trabalho sintética simula. Quando seu time jurídico perguntar "fizemos tudo que era razoável", um checkmark verde do Agent Evaluation não vai bastar. O Google entregou o detector de fumaça. Seu prédio ainda precisa de um código contra incêndio, e no momento é você quem está escrevendo.

SiliconANGLE · The Register · Nature · Microsoft Learn