Seu agente escolhe a ferramenta errada porque voce escreveu uma descricao ruim — e nenhuma plataforma se importa

Você conectou seu agente de IA a uma dúzia de ferramentas — Slack, GitHub, Jira, banco de dados — e assistiu ele mandar com toda confiança um comentário no Jira onde deveria ser uma mensagem no Slack. E ainda te cobrou pelo serviço. Terça-feira clássica.

Seu instinto diz "pega um modelo melhor". Mas o modelo não está raciocinando mal. Ele está lendo a única informação que tem sobre cada ferramenta: um campo de descrição — umas linhas de texto puro — que algum dev escreveu às 2 da manhã durante um hackathon. Aquela descrição é um prompt. Você só não sabia que estava escrevendo um.

Abril de 2026 trouxe uma blitz de plataformas de agentes. Em 8 de abril, a Anthropic lançou o Claude Managed Agents — um serviço cloud que cuida de infraestrutura, gerenciamento de estado e orquestração de ferramentas por $0,08 por hora de sessão. Em 15 de abril, a OpenAI atualizou seu Agents SDK com ambientes sandbox e guardrails. Depois, no Cloud Next (22 a 24 de abril), o Google revelou o Gemini Enterprise Agent Platform com um recurso de destaque: Agent Optimizer — um algoritmo que ajusta automaticamente as instruções do agente agrupando falhas do mundo real.

Três plataformas em três semanas, cada uma prometendo deixar seus agentes mais inteligentes. O detalhe que nenhuma delas mencionou: as três otimizam o system prompt. Nenhuma delas toca nas descrições das ferramentas.

Segundo a própria documentação do Google, o algoritmo do Agent Optimizer opera exclusivamente nas instruções do sistema. O campo description em cada schema de ferramenta — o texto que o modelo de fato lê pra decidir qual ferramenta chamar — fica no ponto cego. O Managed Agents da Anthropic herda qualquer descrição MCP que você alimentar. O SDK da OpenAI repassa seus function schemas como estão. A otimização para na porta de entrada.

Aqui vai o mecanismo. Quando um agente invoca ferramentas, o LLM recebe um JSON schema para cada ferramenta registrada. Cada schema inclui um campo description em texto puro. O modelo lê todos eles em cada chamada e escolhe o melhor match. MCP, OpenAI function calling, ADK do Google — mesmo padrão. Isso é prompt engineering disfarçado, e nenhuma plataforma valida esses prompts pra você.

A qualidade desses prompts é deprimente. Um benchmark de março de 2026 descobriu que mais de 97% das descrições de servidores MCP contêm pelo menos um problema de qualidade — propósito indefinido, casos de borda faltando, semântica ambígua de parâmetros. Já cobrimos os efeitos cascata antes: excesso de ferramentas derruba a precisão, e os times que auditam com rigor veem ganhos imediatos. Mas a causa raiz persiste. Ninguém revisa texto de descrição com o mesmo rigor que revisa código.

Enquanto isso, essas descrições consomem tokens independente da ferramenta ser chamada ou não. Só o servidor MCP do GitHub (93 ferramentas) injeta ~55.000 tokens apenas com schemas. Empilhe GitHub, Slack e Sentry juntos: 143.000 tokens. Isso é 72% de uma janela de contexto de 200K consumida antes do agente fazer qualquer coisa útil. A 100 requests por dia, são $510 por mês só de overhead de schema. Você não está pagando por inteligência. Está pagando pro modelo ler documentação ruim em cada chamada.

E nenhum registry resolve isso. Segundo a análise da TrueFoundry de abril de 2026, o MCP Registry oficial não tem "curadoria, ratings ou recursos de governança embutidos". O Smithery não oferece avaliação de confiabilidade. O MCP Market não dá "nenhuma garantia de qualidade ou segurança". Mais de 10.000 servidores MCP no ar, 97 milhões de downloads mensais do SDK, e nenhum marketplace sequer pontua se a descrição de uma ferramenta bate com o que ela realmente faz.

Google, Anthropic e OpenAI — cada um lançou plataformas de agentes que assumem que a camada de ferramentas é problema de outra pessoa. O Google até otimiza seu system prompt — mas o system prompt não é onde a seleção de ferramentas acontece. É no campo description. E agora, esse campo é a prosa das 2 da manhã de um dev em hackathon, copiada e colada em mil forks de MCP, lida por todo modelo em toda chamada, e revisada por absolutamente ninguém.

Então, antes de trocar seu modelo, mudar de provedor, ou conectar sua 51ª integração — audite as descrições que você já publica. Elas são prompts que você não sabia que estava escrevendo, e controlam cada decisão de ferramenta que seu agente toma.

O próximo diferencial no ecossistema de ferramentas de agentes não vai ser quem tem mais integrações. Vai ser quem rotula direito. O primeiro registry que exigir qualidade de descrição se torna o npm-com-TypeScript do mundo de agentes — e agora, esse registry não existe.

Seu agente escolhe a ferramenta errada porque voce escreveu uma descricao ruim — e nenhuma plataforma se importa

Keep reading

Seu Primeiro Servidor MCP em Python: 40 Linhas Para Sair de Cabo USB Humano e Dar Olhos a Sua IA

O Roadmap 2026 do MCP Tem Quatro Prioridades. Tratamento de Erros Nao E Uma Delas

Sobrecarga de Ferramentas MCP: Cada Servidor Que Voce Adiciona Deixa Seu Agente Mais Burro

Tres SDKs de Agentes Entram em Producao. Ninguem Sai.