Você terminou de montar seu primeiro agente de verdade no fim de semana passado. Ele marca reuniões via Google Calendar, abre tickets no Linear, cutuca sua réplica de leitura do Postgres e ainda escreve os próprios e-mails de follow-up. Você fez a demo na segunda. Seu PM sorriu, balançou a cabeça e fez a única pergunta que você não soube responder: como você sabe que funciona?
Você não sabe. Ninguém sabe. Todo grande SDK de agente lançado em abril de 2026 silenciosamente assumiu que você já tinha uma estratégia de testes — quando na prática a maioria dos times tem um canal no Slack chamado #agent-weirdness e uma reza braba.
O comprovante das últimas duas semanas
Em 8 de abril de 2026, a Anthropic lançou Managed Agents em beta público — US$ 0,08 por sessão-hora em cima do custo de tokens, com uma aba Sessions novinha no Claude Console para traces, chamadas de ferramentas e custo. Sete dias depois, em 15 de abril, a OpenAI atualizou seu Agents SDK com sandbox nativo (roda o código do agente numa VM isolada pra ele não dar rm -rf no seu notebook), uso de ferramentas via MCP (MCP = Model Context Protocol, um padrão universal de plug pra ferramentas de IA), config de memória e um arquivo portável de instruções AGENTS.md.
Entre os dois: um runtime, um sandbox, traces, um medidor de cobrança. Entre os dois: zero harness nativo de avaliação offline. Um eval harness é um test runner pra LLMs — o equivalente de pytest pra agentes, a coisa que replica cenários fixos e te diz passou ou falhou antes do cliente fazer isso por você 😹.
O que um teste de agente realmente precisa
Não é teste unitário. Um teste de agente precisa de replay determinístico (mesma entrada, mesmo trace), mocking de chamadas de ferramentas (seu teste não deveria mandar e-mail pra ninguém de verdade), rubricas de LLM-as-judge (um segundo modelo corrigindo o dever de casa do primeiro), scoring de trajetória (ele deu dez passos quando três bastavam?) e fixtures de regressão que você pode rodar de novo depois de cada ajuste de prompt.
Ninguém entrega isso pronto. Você cola tudo na marra juntando cinco fornecedores:
# Stack típico de testes de agente em 2026 — escolhe três, troca mês sim mês não
import promptfoo # regressões em YAML (agora da OpenAI)
import braintrust # LLM-as-judge + portões de CI ($)
from langsmith import Client # scoring de trajetória pra LangGraph
import phoenix as px # OpenTelemetry self-host
from deepeval import assert_test # métricas em formato pytest
Cinco ferramentas, cinco superfícies de auth, cinco boletos, duas cópias de cada trajetória. Nenhum formato de intercâmbio compartilhado. Ninguém pra ligar quando o fornecedor mexe na API.
Os autores dos frameworks sabem
A LangChain soltou o verbo. Num post de 2 de abril, o time Deep Agents detalhou sete categorias de eval feitas na unha — operações de arquivo, uso de ferramentas, retrieval, conversa, memória, sumarização, testes unitários — todas rodadas externamente via pytest + GitHub Actions, nada embutido no SDK. Seis dias depois chamaram evals de "o sinal primário pra guiar melhoria iterativa" — uma admissão educada de que o harness foi embarcado primeiro e os testes ficaram pra "em breve." 😾
A conta do teste parafusado por fora
Loops de LLM-as-judge multiplicam o custo de tokens — agora você paga pelo agente e pelo corretor dele. Phoenix self-hosted economiza grana, mas você opera a infra. Fornecedores gerenciados como Braintrust adicionam mais uma fatura mensal. E em 9 de março de 2026 a OpenAI comprou a Promptfoo — uma das duas CLIs open-source independentes virou propriedade de um fornecedor de modelo. Sua camada neutra de testes não é mais neutra.
O que fazer antes do Google Cloud Next em 22 de abril
Escolha uma ferramenta essa semana. Solo? Promptfoo, ainda Apache 2.0 por enquanto. Em time? Braintrust ou LangSmith. Paranoico / self-hosted? Arize Phoenix. Escreva dez fixtures de trajetória a partir de tarefas reais de usuários. Rode elas em cada troca de prompt ou de modelo.
Porque seu agente não tem testes unitários. O do seu concorrente também não. Quem embarcar o primitivo opinativo de eval dentro de um SDK fica com o próximo moat — essa vai ser a ferramenta que os times ainda vão estar rodando em 2028 🐈⬛.



