Voce blindou as chamadas do seu agente. Ninguem blindou as respostas.

Você fez tudo certo. Verificou seus servidores MCP (Model Context Protocol — um padrão universal de conexão para ferramentas de IA, tipo USB só que para dados), travou permissões, fixou versões de schema para que seu agente de IA — um programa que usa ferramentas por conta própria — só chamasse o que você autorizou. Sua infraestrutura de agentes parece blindada para produção. Você dorme tranquilo.

Não deveria.

Porque toda ferramenta que seu agente chama envia uma resposta de volta. E até 25 de abril de 2026, quase ninguém na indústria valida o que tem dentro dessa resposta antes dela cair na janela de contexto do agente — a memória de trabalho onde o modelo de IA não consegue distinguir instruções confiáveis de lixo que uma ferramenta acabou de cuspir.

Três Plataformas, Mesmo Ponto Cego

Desde o início de abril, as três maiores empresas de IA lançaram recursos de segurança para agentes — todas protegendo a porta errada.

Em 8 de abril, a Anthropic lançou o Managed Agents com permissões escopadas e armazenamento de credenciais. Controla quais ferramentas o agente pode chamar. O que essas ferramentas respondem? Problema de quem?

Em 16 de abril, a OpenAI atualizou seu Agents SDK com tracing automático — um sistema de logging que registra cada chamada de ferramenta, handoff e evento de guardrail. Ele observa as respostas. Não sanitiza. É tipo instalar uma câmera de segurança que assiste alguém entrar com uma faca e anota no relatório.

Em 22 de abril, o Google lançou o Agent Gateway no Cloud Next com Model Armor, que de fato sanitiza tanto chamadas quanto respostas — filtrando prompt injection, URLs maliciosas e vazamento de dados. O Google, para ser justo, é a única grande plataforma que protege explicitamente o lado da resposta. Está em preview.

Por Que Isso Importa: A Porta Está Escancarada

A especificação do MCP define inputSchema — um formato rígido para o que você envia para uma ferramenta. Não existe outputSchema. Respostas de ferramentas são texto ou JSON arbitrário que flui sem filtro para o raciocínio do modelo. A spec literalmente não tem um campo para "validar o que volta".

Isso cria três vetores de ataque que deveriam tirar seu sono:

Injeção indireta de prompt — uma ferramenta retorna conteúdo com instruções ocultas embutidas. O relatório PipeLab State of MCP Security 2026 (publicado em abril de 2026) documenta um caso real: um atacante criou uma issue maliciosa no GitHub para que, quando um servidor MCP a buscasse, a resposta instruísse o agente a exfiltrar o conteúdo de repositórios privados. "As descrições das ferramentas estavam limpas. O envenenamento estava nos dados que a ferramenta retornou."

Inundação de contexto — uma ferramenta retorna tanta informação que afoga a memória de trabalho do agente, empurrando instruções críticas para fora da janela de contexto.

Cadeias de exfiltração de dados — uma resposta envenenada manda o agente encaminhar contexto sensível para outra ferramenta. O artigo de pesquisa Log-To-Leak (publicado em março de 2026) demonstrou isso em GPT-5, Claude Sonnet 4 e outros — alcançando uma taxa de sucesso de 100% no ataque ao GPT-5 conectado a um servidor MCP do PayPal, com 94,6% de precisão no vazamento de dados.

Enquanto isso, em 16 de abril, a OX Security divulgou 11 CVEs afetando aproximadamente 200.000 instâncias de servidores MCP. A resposta oficial da Anthropic: sanitização é "responsabilidade do desenvolvedor". Até o OWASP MCP Top 10 (lançado em abril de 2026) — a primeira tentativa da indústria de criar um framework de segurança para MCP — não tem uma categoria dedicada para respostas de ferramentas não validadas. A lacuna é tão normalizada que as pessoas escrevendo os padrões de segurança ainda não deram nome para ela.

O Preço de Corrigir Isso

Adicionar validação de resposta quebra a simplicidade que fez o MCP ter sucesso. Ferramentas precisariam de schemas de saída. Agentes precisariam de uma camada de sanitização — algo como o Agent Governance Toolkit da Microsoft (open-source desde 2 de abril), que inclui um gateway de segurança MCP com inspeção de respostas. Cada chamada ganha overhead de parsing. A experiência de "só plugar ferramentas" morre.

Mas a alternativa é pior.

O Que Isso Significa Para Você

Até que a validação do lado da resposta seja implementada em todo lugar, cada servidor MCP que você conecta é um cano sem filtro direto no cérebro do seu agente. Todo o orçamento de segurança que você gastou em portões de entrada protege o lado errado da chamada. Se você está rodando agentes em produção hoje, precisa do Model Armor do Google (preview), do AGT da Microsoft, ou do seu próprio middleware de sanitização de respostas. "Confiar na ferramenta" não é uma política de segurança.

Você trancou a porta da frente. A porta dos fundos não tem tranca. Nem porta tem.

O próximo grande incidente de segurança com agentes não vai vir de uma chamada maliciosa. Vai vir da resposta de uma ferramenta.

Voce blindou as chamadas do seu agente. Ninguem blindou as respostas.

Três Plataformas, Mesmo Ponto Cego

Por Que Isso Importa: A Porta Está Escancarada

O Preço de Corrigir Isso

O Que Isso Significa Para Você

Keep reading

Google ADK 1.0: suas ferramentas de IA podem ser agentes secretos agora

Todo texto que seu agente de IA le e um comando sem assinatura

Seu Primeiro Servidor MCP em Python: 40 Linhas Para Sair de Cabo USB Humano e Dar Olhos a Sua IA

Seu agente escolhe a ferramenta errada porque voce escreveu uma descricao ruim — e nenhuma plataforma se importa