SWE-bench Morreu. Eis No Que Sua Ferramenta de Codigo com IA Realmente Compete.

Você escolhe sua ferramenta de código com IA olhando o ranking. SWE-bench Verified — um teste padronizado onde modelos de IA corrigem bugs em projetos Python open-source — publica um placar bonitinho, e todo fornecedor enfia o número na sua cara. Pontuação maior, ferramenta melhor. Simples, né?

Só que ferramentas rodando modelos quase idênticos parecem completamente diferentes no seu codebase real. Uma acerta uma refatoração em três arquivos, outra alucina um import que não existe. O placar diz que são gêmeas. Sua segunda-feira de manhã discorda.

10.000 Devs Confirmam: o Ranking Está Mentindo

A pesquisa AI Pulse da JetBrains saiu este mês — mais de 10.000 desenvolvedores profissionais, oito linguagens, dados reais do ambiente de trabalho — e confirmou o que seu instinto já desconfiava: a satisfação dos devs varia absurdamente entre ferramentas construídas sobre modelos que diferem por margem de erro no SWE-bench. O benchmark mostra um empate triplo. Os desenvolvedores discordam com convicção.

Isso não é novidade. Lá em fevereiro, a OpenAI decretou a morte do SWE-bench Verified. A autópsia: GPT-5.2, Claude Opus 4.5 e Gemini 3 Flash conseguiam reproduzir de cor as soluções gold-patch — recebendo nada além do ID da tarefa. Os modelos não resolviam problemas. Recitavam respostas decoradas. A OpenAI também auditou 27,6% das tarefas reprovadas e descobriu que 59,4% tinham testes defeituosos que rejeitavam código funcionalmente correto. O benchmark não testava só memorização — também marcava respostas certas como erradas.

O placar ao vivo em 13 de abril de 2026 confirma o absurdo: Claude Opus 4.5 com 80,9%, Opus 4.6 com 80,8%, Gemini 3.1 Pro com 80,6%. Três modelos de fronteira dentro de 0,3 pontos percentuais. Um empate estatístico fantasiado de corrida de cavalos.

A Variável que Nenhum Benchmark Mede

Se a pontuação não explica a diferença de satisfação, o que explica? Estratégia de contexto — quanto do seu projeto a ferramenta realmente entende antes de escrever uma única linha.

O SWE-bench testa correções isoladas de bugs em repos open-source bem documentados. Você passa os dias fazendo features multi-arquivo em codebases proprietários cheios de conhecimento tribal e aquele arquivo de configuração que o Joãozinho escreveu em 2019 e que ninguém tem coragem de mexer. Veja como cada ferramenta principal ataca o problema — e onde cada uma quebra:

Claude Code lê sua árvore de diretórios e arquivos CLAUDE.md — documentos em texto puro onde você ensina à IA as convenções do projeto, padrões proibidos e decisões de arquitetura. Ele envia o conteúdo completo dos arquivos para a janela de contexto: código real, não resumos. O limite: janelas de contexto são finitas. Em um monorepo de 50.000 arquivos, ele não consegue segurar tudo de uma vez e depende dos seus arquivos de instrução para apontar o que importa. CLAUDE.md preguiçoso, resultado preguiçoso. A ferramenta é tão inteligente quanto o mapa que você desenha pra ela.

Cursor vai na direção oposta. Seu recurso @Codebase constrói um índice vetorial proprietário — um banco de embeddings do significado semântico do seu código. Quando você consulta, ele recupera os trechos mais relevantes por busca de similaridade, navegando codebases grandes sem carregar tudo no contexto. O modo de falha: embeddings perdem relações estruturais. Uma função chamando três helpers em dois arquivos pode bater semanticamente, mas o índice perde a cadeia de dependências. O índice também atrasa em relação às edições em projetos grandes — você muda um arquivo e, nos próximos minutos, a IA responde perguntas sobre a versão antiga.

GitHub Copilot usa Knowledge Bases no plano Enterprise ($39/usuário/mês) — repositórios indexados mais documentação que o Copilot puxa durante as completions. Ele pode cruzar múltiplos repos, o que funciona bem pra arquiteturas de microsserviços. O detalhe que ninguém menciona: os planos gratuito e Pro não têm nada disso. A maioria dos devs individuais roda o Copilot com zero contexto do projeto — só o arquivo aberto e talvez uma aba vizinha. A diferença entre o Copilot Enterprise e o Copilot comum é maior que a diferença entre quaisquer duas ferramentas no ranking.

Zed faz parsing estrutural via Tree-sitter — ele vê árvores de sintaxe abstrata, não strings planas. Entende escopos, limites de funções e aninhamento nativamente. Rápido e leve. A contrapartida: sintaxe sem semântica. O Tree-sitter sabe que uma função existe e como se chama, não o que ela faz ou por que importa. Pra boilerplate e edições em arquivo único: preciso. Pra "como o middleware de auth afeta esse endpoint três pacotes adiante?": fora do alcance.

Mesmo nível de modelo. Compreensão de projeto radicalmente diferente. Os dados de satisfação começam a fazer sentido.

Simon Willison argumentou lá em outubro de 2025 que a melhor estratégia de contexto não são arquivos de instrução sofisticados — é o básico chato: testes automatizados (ele roda 1.500 em um projeto), servidores de dev interativos, GitHub Issues bem estruturadas. Traduzindo: escrevam testes, seus animais. A configuração de contexto mais sofisticada do mundo não salva código que não tem suíte de testes pra se auto-verificar. Ele está irritantemente certo — mas não é uma coisa ou outra. Boa estratégia de contexto mais uma suíte de testes sólida é o que realmente faz o efeito composto.

O Preço que Não Aparece na Etiqueta

Aqui está a armadilha que ninguém coloca na conta da comparação: toda estratégia de contexto acima é proprietária e não-portável. Seus arquivos CLAUDE.md não significam nada pro Cursor. Seu índice do Cursor não transfere pro Copilot. Trocar de ferramenta significa re-ensinar todo o seu projeto do zero — horas de setup, semanas ajustando prompts e documentação.

A assinatura de $20/mês é a parte barata. A parte cara é o conhecimento institucional que você despeja no formato específico de uma ferramenta.

E a cereja do bolo: nenhum benchmark padrão mede compreensão de codebase. A OpenAI recomendou o SWE-bench Pro como substituto do Verified lá em fevereiro, mas dois meses depois a adoção continua escassa e o Pro ainda testa tarefas isoladas. Modelos com ~80% no Verified caem pra cerca de 23% no Pro. Ninguém construiu o benchmark que testa o que realmente importa.

O Que Isso Significa Pra Você

Pare de ler rankings. O número que você está comparando é uma pontuação de memorização em uma prova quebrada.

Pegue duas ou três ferramentas, rode cada uma no seu repo por uma semana, e acompanhe a precisão em tarefas que exigem entendimento cross-file — o tipo de trabalho que você realmente faz. Preste atenção no tempo de setup, porque esse é seu custo de troca pra sempre.

A corrida dos modelos bateu no teto em ~81%. A corrida do contexto acabou de começar, e ninguém está anotando o placar. Isso é ou apavorante ou a maior oportunidade em ferramentas de desenvolvimento agora — dependendo se você é um fornecedor ou um dev com uma semana sobrando pra fazer uma avaliação honesta.

SWE-bench Morreu. Eis No Que Sua Ferramenta de Codigo com IA Realmente Compete.

10.000 Devs Confirmam: o Ranking Está Mentindo

A Variável que Nenhum Benchmark Mede

O Preço que Não Aparece na Etiqueta

O Que Isso Significa Pra Você

Keep reading

Quatro Ferramentas de IA Lancaram Agentes Paralelos. Nenhuma Resolveu o git merge.

A OpenAI nao venceu a corrida da IA — ela comprou o placar

Voce nao consegue testar seu agente de IA. E nenhum SDK se importa.

Grok caiu por dois dias durante sua propria semana de lancamento