Você conectou uma dúzia de servidores MCP ao seu agente de IA. GitHub, Slack, Linear, Postgres, S3, busca na web — o buffet completo. Seu agente teoricamente consegue acessar toda a sua stack. Você se sente poderoso. O agente, não.
Ele começou a errar tarefas que antes acertava de olhos fechados. Escolhendo a ferramenta errada. Alucinando parâmetros que não existem. Esquecendo contexto que você digitou literalmente agora. Você não quebrou nada — só deu cardápios demais pra ele ler antes de começar a cozinhar.
A Matemática Que Ninguém Te Contou
Em 14 de abril, a Cloudflare publicou uma Enterprise MCP Reference Architecture que colocou números reais no problema. MCP (Model Context Protocol) é um padrão universal de conexão para ferramentas de IA — tipo USB, mas para plugar agentes em serviços externos. Cada ferramenta MCP traz um schema dizendo ao modelo o que ela faz e quais parâmetros precisa. A cada turno, o modelo lê todos eles.
Como detalhamos no artigo de ontem, Tool-Calling Is Dead, o próprio portal da Cloudflare queimava ~9.400 tokens só em descrições de ferramentas — antes do agente sequer olhar pro seu problema real. O servidor MCP do GitHub (94 ferramentas) comia ~42.000 tokens. Os números merecem ser repetidos só porque nada mudou de lá pra cá. O pessoal só continuou plugando servidores.
Um benchmark de 6 de março já tinha documentado o colapso de acurácia: a seleção de ferramentas despencou de ~95% com 4 ferramentas focadas para ~71% com 46 ferramentas. Seis semanas depois, a Cloudflare confirmou o mesmo problema em escala enterprise. O protocolo não mudou. A quantidade de servidores, sim.
Todo Mundo Consertando, Ninguém Concorda Como
A Cloudflare lançou o Code Mode em 16 de abril — eliminando a lista telefônica de ferramentas e substituindo por uma API tipada. Dois entry points em vez de 2.500+. Tokens caíram 99,9%. Brilhante. Também funciona só no Cloudflare Workers. Resolveram o problema do padrão aberto com uma solução proprietária. Clássico.
A Atlassian foi pela rota da compressão. Seu mcp-compressor open-source, lançado em 29 de março, espreme as 94 ferramentas do GitHub MCP de 17.600 tokens para 500 na compressão máxima (redução de 97%). Pense em minificar a documentação da sua API até você mesmo não conseguir ler. O modelo de alguma forma ainda consegue — mas o tradeoff é real. Os próprios benchmarks da Atlassian mostram que a compressão máxima reduz a fidelidade das constraints de parâmetros: ferramentas complexas com schemas de objetos aninhados perdem as dicas de validação que os modelos precisam para invocações corretas. A documentação deles recomenda compressão média (redução de 80%, ~3.500 tokens) pra produção e reserva a máxima para "exploração apenas". A versão honesta: você está trocando acurácia por espaço e torcendo pro modelo preencher as lacunas.
A Anthropic foi por um caminho completamente diferente. Em 8 de abril, lançaram os Managed Agents a $0,08/hora — sub-agentes especializados com kits enxutos de 5–10 ferramentas em vez de um generalista se afogando em 50. Cada sub-agente carrega só suas próprias ferramentas por turno, cortando o overhead por agente em aproximadamente 85%. A solução pra ferramentas demais? Mais agentes com menos ferramentas cada. Recursão como serviço.
E depois tem os times que pularam a otimização e foram direto pra deleção. Em 12 de março, a equipe de engenharia do GitHub Copilot compartilhou resultados de cortar suas ferramentas de 40 para 13 — melhoria de 2–5 pontos no benchmark, queda de 400ms na latência. Em fevereiro, a Block reconstruiu seu servidor Linear MCP três vezes, reduzindo de 30+ ferramentas para 2. Em 3 de abril, Phil Schmid (Hugging Face) destilou o padrão em uma única regra: "Cure implacavelmente. 5 a 15 ferramentas por servidor. Um servidor, uma função." Sem algoritmo de compressão. Sem camada de discovery. Só disciplina.
O Problema Real É o Protocolo
Eis o que nenhuma dessas soluções resolve: cada uma delas é proprietária, específica de plataforma, ou um paliativo pra um buraco no próprio MCP.
O Code Mode da Cloudflare roda em Workers. Managed Agents rodam com Claude. O compressor da Atlassian é a opção mais portável — e mesmo assim é fita isolante num protocolo que foi lançado sem índice.
A Anthropic vendeu o MCP como o padrão universal. O conector único pra dominar todos. Em vez disso, estamos construindo camadas de discovery específicas de cada vendor em cima do padrão universal pra fazê-lo funcionar em escala.
A gente já assistiu esse filme antes. CORBA nos anos 90 — um protocolo de objetos "universal" que gerou toda uma indústria de bridges proprietárias só pra torná-lo usável. O Interface Repository prometia discovery dinâmico; na prática, cada vendor de ORB entregava o seu próprio. SOAP nos anos 2000 — o "padrão" enterprise que todo mundo discretamente contornava com REST porque os arquivos WSDL viravam monstruosidades ilegíveis. Módulos JavaScript — AMD, CommonJS, UMD, uma década inteira de fragmentação até os ES modules chegarem. O padrão nunca muda: padrão aberto nasce incompleto, vendors preenchem as lacunas com camadas proprietárias, ecossistema fragmenta até alguém consertar o padrão ou matá-lo.
O MCP está na fase de preenchimento de lacunas por vendors. Cloudflare, Anthropic, Atlassian e uma dúzia de players menores — cada um construindo sua própria resposta pro mesmo recurso ausente: tool discovery dinâmico. O protocolo precisa lidar com isso nativamente. Não lida. Então temos seis soluções concorrentes e chamamos isso de ecossistema.
A leitura otimista: competição gera inovação, a melhor abordagem vence, o padrão absorve. A leitura realista — a que eu apostaria — é que os grandes provedores de modelos vão embutir seu discovery preferido nos frameworks de agentes padrão, e "universal" vai discretamente passar a significar "funciona com Claude" ou "funciona com GPT", mas não com os dois. USB-C com protocolos de carregamento proprietários, de novo.
O Que Fazer Agora, Na Prática
Audite suas conexões MCP. Remova servidores que seu agente não chamou na última semana. Agrupe as ferramentas restantes por domínio de tarefa. Meça o uso de tokens antes e depois — você vai se surpreender com quanto espaço recupera.
O MCP não precisa de mais servidores. Precisa de um momento package manager — discovery dinâmico e lazy loading que trate ferramentas como imports, não como variáveis globais enfiadas em todo prompt. Até lá, menos é literalmente mais. E os agentes com melhor performance não serão os com mais ferramentas — serão os que aprenderam a dizer não.




