Você escolhe sua ferramenta de código com IA olhando o ranking. O SWE-bench te dizia qual modelo corrigiu mais bugs. O Promptfoo permitia comparações lado a lado. O Agents SDK dava um framework pra construir. Três pilares da infraestrutura de comparação. Três verificações independentes de quem é realmente o melhor.

Eu cobri cada uma dessas histórias individualmente esta semana — o colapso do SWE-bench, a aquisição do Promptfoo, a atualização do Agents SDK. Separadamente, cada uma fazia sentido. Juntas, elas revelam algo que nenhuma das peças individuais capturou.

A narrativa convencional

A OpenAI fez três movimentos não relacionados. Publicou uma crítica legítima a um benchmark falho. Adquiriu uma ferramenta open-source de avaliação e manteve a licença MIT (qualquer um pode copiar, modificar, redistribuir). Tornou seu SDK model-agnostic. Cada movimento é defensável isoladamente. Cada movimento ajuda desenvolvedores.

Mas na real

Isso é integração vertical da stack de avaliação. E tem precedente.

Em 2007, o Google adquiriu o DoubleClick — a plataforma dominante de ad-serving que media performance de publicidade de todos os provedores, incluindo os do próprio Google. A União Europeia investigou por anos. O Google prometeu neutralidade. Uma década depois, o DOJ (Departamento de Justiça dos EUA) argumentou que o Google havia sistematicamente favorecido seus próprios produtos de publicidade através daquela mesma infraestrutura. A empresa que vendia os anúncios também controlava a ferramenta que avaliava se os anúncios funcionavam.

A OpenAI acabou de executar o mesmo playbook na avaliação de modelos de IA — em sete semanas ao invés de sete anos.

Três movimentos, um padrão

Movimento um (23 de fevereiro): A auditoria da OpenAI identificou que 59,4% dos casos de teste do SWE-bench Verified eram falhos e encontrou contaminação de dados de treino em todos os modelos frontier. Eles pararam de reportar scores. A crítica tinha mérito — as tarefas mais difíceis do SWE-bench Pro mostram uma diferença de 22 pontos em relação aos números inflados do Verified. Mas os modelos da OpenAI tinham estagnado em ~80% no Verified enquanto concorrentes se aproximavam. Timing conveniente.

Movimento dois (9 de março): A OpenAI adquiriu o Promptfoo — mais de 350.000 desenvolvedores, mais de 25% das empresas Fortune 500 — o framework de avaliação que a maioria dos times usa pra comparar LLMs. A régua mais popular agora pertence a um dos competidores.

Movimento três (15 de abril): A atualização do Agents SDK adicionou suporte nativo a mais de 100 LLMs concorrentes via integração LiteLLM. Cada modelo rival vira uma troca de uma linha no config dentro do framework da OpenAI. O modelo vira commodity; o SDK vira o fosso competitivo.

O que muda de verdade pra quem desenvolve

Três coisas.

A fricção muda de lugar. Quando trocar de modelo exige mudar uma linha num arquivo de config da OpenAI, você não está "escolhendo o Claude" — você está escolhendo a plataforma da OpenAI e ocasionalmente roteando pro Claude. Pense na Apple construindo a única loja de aplicativos e generosamente deixando a Samsung vender lá.

Defaults de avaliação vencem opções de avaliação. O Promptfoo ainda pode testar qualquer modelo. Mas os templates padrão, as configs recomendadas, o fluxo de "primeiros passos" — tudo isso molda o que 90% dos desenvolvedores realmente testam. Como Simon Willison observou: "A OpenAI ainda não tem muito histórico quando se trata de adquirir e manter projetos open source." A licença MIT significa que você pode fazer fork e ir embora. A maioria não vai. Defaults são poderosos.

A autoridade dos benchmarks se fragmenta. O SWE-bench Pro usa tarefas mais difíceis e menos contaminadas em múltiplas linguagens. O LiveCodeBench rotaciona problemas pra evitar memorização. Nenhum dos dois tem a adoção que o Verified tinha. Construir confiança num novo benchmark leva anos. A OpenAI não precisa de anos — precisa de meses de ambiguidade.

A lacuna na contra-estratégia

A Anthropic entrega o Claude Code — uma ferramenta direto pro desenvolvedor que bypassa wrappers de SDK por completo. O Google embute o Gemini no Android, Chrome e Workspace, criando canais de distribuição que a OpenAI não consegue interceptar. Ambos jogam na defesa via distribuição, não via medição.

Nenhum dos dois construiu um padrão alternativo de avaliação. Essa é a lacuna real. A indústria tem modelos concorrentes, SDKs concorrentes, canais de distribuição concorrentes — mas não tem mais infraestrutura de avaliação independente, confiável e amplamente adotada. O placar antigo tinha problemas legítimos de contaminação. O substituto ainda não existe.

A pergunta incômoda

A pergunta não é se os movimentos individuais da OpenAI resistem ao escrutínio. Resistem. A pergunta é se uma única empresa deveria simultaneamente vender o produto, ser dona do framework de testes e controlar o SDK que encapsula todos os concorrentes.

Se a sua resposta envolve a palavra "confiança" — parabéns, você identificou o problema.

Da próxima vez que avaliar um modelo de IA, verifique quem construiu a régua, quem é dono do laboratório de testes e de quem é o tooling que roda o teste. Se for a mesma empresa três vezes, você não está avaliando — está sendo convertido em cliente.

A corrida dos modelos de IA não acabou porque alguém venceu. Acabou porque o líder comprou o placar e transformou num marketplace.