Você conectou seu agente de IA a cinco ferramentas — Slack, GitHub, Jira, banco de dados, e-mail. Cada uma funciona. Você testou individualmente, tudo verde no painel, bateu palma pra si mesmo. Seu dashboard diz 95% de taxa de sucesso. A vida é bela.
Só que seu workflow real — ler banco de dados, criar ticket, atualizar repo, notificar no Slack, enviar resumo — engole a bola silenciosamente uma ou duas vezes por dia. Nenhum alarme dispara. Nenhum dashboard fica vermelho. O agente simplesmente... não termina. E você fica se perguntando se está ficando louco ou se a máquina está te fazendo gaslighting.
A Lacuna que Ninguém Resolveu
O Google Cloud Next terminou em 22 de abril com uma pilha de anúncios sobre agentes. Três dias antes, em 17 de abril, a AWS lançou seu Agent Registry no AgentCore. E no começo do mês, em 8 de abril, a Anthropic lançou managed agents. Todas as três agora oferecem monitoramento de agentes. Todas medem métricas por ferramenta — latência, taxa de erros, contagem de requisições via MCP (Model Context Protocol — um padrão universal de conexão para ferramentas de IA, tipo USB, mas para dados). Nenhuma mede a confiabilidade composta da cadeia: a probabilidade do seu workflow multi-etapas realmente terminar.
Cinco etapas com 95% cada? Isso dá 77,4% ponta a ponta. Multiplicação simples que seu dashboard se recusa a fazer.
Saber o número é o passo um. Resolver é o trabalho de verdade. Então, o que os frameworks te entregam?
O que os Frameworks Realmente Entregam
LangGraph é o que chega mais perto. Suas classes Checkpointer persistem o estado em cada nó do grafo. Etapa quatro falha, você retoma da etapa três — não do zero. Infraestrutura real. O porém: seu agente inteiro precisa ser um state graph. Retrofitar um agente existente significa reescrevê-lo.
CrewAI te dá max_retry_limit por tarefa e callback hooks. Isso é lógica de retry — mesma ferramenta, mesma entrada, tenta de novo. Se a falha vem de uma resposta malformada de um servidor MCP, repetir identicamente é a definição de insanidade.
Google ADK, anunciado no Cloud Next em 22 de abril, vem com gerenciamento de estado no nível de sessão. A camada de observabilidade deles — a mais avançada das três — ainda renderiza traces por chamada. Você vê a latência de cada chamada MCP individual. Você não vê "essa cadeia de cinco chamadas completou 77% das vezes essa semana."
Managed agents da Anthropic rastreiam status da sessão, duração e custo. Útil pro financeiro. Inútil pra completude da cadeia.
A Primitiva que Falta
Um playbook da Google Cloud Community publicado em 9 de março documenta o padrão central que ninguém entrega nativamente: checkpointing por etapa — salvar a saída de cada etapa para poder retomar no meio da cadeia. LangGraph faz isso. Todo o resto: você escreve sua própria camada de persistência.
O playbook também cobre circuit breakers, roteamento de fallback e outros padrões de microsserviços adaptados para agentes. Referências úteis, mas a lacuna real está mais acima na stack: SLOs no nível de cadeia. "Este workflow precisa completar ponta a ponta 95% das vezes." Nenhuma plataforma oferece essa métrica. Você constrói com telemetria customizada, um banco de séries temporais e suas próprias regras de alerta.
Tudo isso é trabalho real de engenharia em cima de plataformas que já te cobram — Anthropic a $0,08 por hora de sessão, por exemplo.
O que Fazer na Segunda-Feira de Manhã
Escolha um framework com checkpointing nativo. Se está começando do zero, a persistência de estado do LangGraph é a opção menos ruim. Se já está rodando agentes, adicione saves por etapa nas suas três cadeias mais críticas antes de plugar mais um servidor MCP.
Instrumente o sucesso no nível da cadeia. Não por ferramenta — por workflow. Registre um único booleano: a cadeia terminou? Agregue semanalmente. Você vai odiar o número, mas pelo menos vai ter um.
Mantenha as cadeias curtas. Três etapas, não dez. Cada etapa adicional multiplica sua probabilidade de falha.
A Verdadeira Lacuna de Infraestrutura
A próxima evolução relevante na stack de agentes não é um modelo mais inteligente nem uma ferramenta mais rápida. É o framework que trata a confiabilidade composta de cadeias da mesma forma que bancos de dados tratam garantias transacionais — como uma primitiva de primeira classe, não um projeto faça-você-mesmo. O checkpointing do LangGraph aponta para esse futuro. O gerenciamento de sessão do ADK do Google acena na mesma direção. Todo o resto está te vendendo a resistência de cada elo individual e torcendo pra você nunca puxar a corrente.





