Em 2023, sugerir um modelo de IA open-source para produção era suicídio profissional. A distância entre os melhores modelos gratuitos e o GPT-4 não era uma distância — era um abismo visível do espaço. IA proprietária era a única opção séria. Todo mundo sabia disso.

Todo mundo estava certo. No passado.

O abismo virou uma lombada

Em 31 de março de 2026, o Artificial Analysis Intelligence Index — um score composto que mede desempenho de IA em matemática, ciência, código e raciocínio — coloca o melhor modelo proprietário (Gemini 3.1 Pro) em 57 pontos. O melhor modelo open-weights, GLM-5 da Zhipu AI, marca 50. O Claude Opus 4.6 fica em 53.

Sete pontos. Essa é toda a distância entre "nos pague uma fortuna" e "rode você mesmo de graça". Três anos atrás, vergonha era a única unidade de medida pra essa diferença.

Os números que deveriam tirar o sono dos vendors de modelo fechado

Vamos aos detalhes.

O time Qwen da Alibaba lançou o Qwen3-Coder-Next em 4 de fevereiro de 2026 — um modelo focado em código usando arquitetura MoE (Mixture of Experts — um design onde o modelo ativa apenas uma fração pequena do seu "cérebro" pra cada tarefa, economizando computação sem perder inteligência). Ele marca 70,6% no SWE-Bench Verified, o benchmark que testa se um modelo consegue de fato corrigir bugs reais em codebases reais. Não probleminhas de brinquedo. Issues reais do GitHub.

A DeepSeek entregou o V3.2 em 1° de dezembro de 2025 — um modelo de 685 bilhões de parâmetros (parâmetros são as conexões aprendidas numa rede neural — mais geralmente significa mais inteligente, mas também mais pesado) com janela de contexto de 128K (quanto texto o modelo consegue "enxergar" de uma vez — 128K equivale a um livro de umas 300 páginas). Marca 70–74% no mesmo benchmark dependendo do setup de avaliação.

A Zhipu AI lançou o GLM-5 em 11 de fevereiro de 2026 — uma fera de 744B parâmetros com apenas 40B ativos graças ao seu próprio design MoE. Bate 77,8% no SWE-Bench Verified. A Zhipu distribui sob licença MIT — ou seja, qualquer um pode usar pra qualquer coisa, comercialmente, sem pegadinha.

Organizações com bilhões em investimento construíram isso. Não hobbyistas. Não programadores de fim de semana. Empresas que tratam IA como infraestrutura.

A economia que muda tudo

Aqui a coisa fica desconfortável pros vendors de API.

Hospedar um modelo open-source em hardware GPU decente custa aproximadamente $2.000–10.000 por mês dependendo do volume de tráfego. As chamadas de API equivalentes pro GPT-5 ou Claude Opus para a mesma carga de trabalho? $20.000–100.000 por mês. Em volumes altos — 100 milhões de tokens diários pra cima — a economia com self-hosting chega a 40–90%.

Pra uma startup queimando runway, isso não é otimização. É a diferença entre sobreviver e publicar aquele post de "lamentamos informar que estamos encerrando as atividades".

E tem o fator China que não dá pra ignorar. Qwen (Alibaba), DeepSeek (High-Flyer) e GLM (Zhipu AI) são todos bancados pela China. Quando um país com 1,4 bilhão de pessoas decide subsidiar desenvolvimento de IA e distribuir os resultados sob licença MIT, o cenário competitivo não se move — ele racha.

Mas calma lá

Benchmarks mentem. Todo engenheiro que já colocou esses modelos em produção sabe que a distância entre "vai bem na prova" e "funciona de forma confiável quando o usuário faz algo inesperado" é enorme.

OpenAI e Anthropic refinam seus modelos com RLHF (reinforcement learning from human feedback — basicamente, milhares de humanos dizendo pro modelo "boa resposta" ou "resposta péssima" até ele melhorar nas questões difíceis). Modelos open-source não conseguem replicar facilmente essa escala de curadoria humana.

A diferença de 7 pontos na média dos benchmarks mascara uma diferença muito maior na cauda da dificuldade. Quando seu agente de IA encontra os 5% de queries mais difíceis — raciocínio inédito, padrões de código desconhecidos, instruções ambíguas — Claude e GPT-5 ainda se destacam de forma significativa.

Self-hosting também não é de graça. Rodar um modelo de 685B exige múltiplas GPUs H100, um time que entenda de debugging CUDA e tensor parallelism (dividir o modelo entre múltiplos chips pra ele de fato funcionar), além de overhead operacional contínuo. Pra muitas empresas, o custo da API é genuinamente mais barato quando você bota na conta o tempo de engenharia.

E segurança. Qualquer um pode fazer fine-tune em modelos abertos sem restrições. Ótimo pra customização, preocupante pra todo o resto. Os guardrails que a Anthropic constrói não são só features — são investimentos de engenharia que modelos abertos raramente igualam.

O framework que realmente funciona

Tier 1 — 70% das cargas de trabalho: Sumarização, Q&A simples, classificação, extração de dados estruturados. Modelos open-source dão conta de forma impecável. Usar GPT-5 pra isso é ir de Ferrari comprar pão na padaria.

Tier 2 — 25% das cargas de trabalho: Geração de código complexo, escrita com nuances, raciocínio multi-etapas. Modelos abertos são competitivos mas inconsistentes. Modelos proprietários são mais confiáveis. Seu resultado vai depender da sua tolerância pra falhas ocasionais.

Tier 3 — 5% das cargas de trabalho: Raciocínio de fronteira, resolução de problemas inéditos, os edge cases mais difíceis. Proprietário ganha. A diferença é real e vale pagar por ela.

As empresas que estão ganhando em 2026 não são fanáticas por nenhum dos lados. Rodam modelos abertos pro grosso do trabalho e direcionam o difícil pro Claude ou GPT-5. Isso não é arquitetura esperta — é aritmética básica.

A trajetória é a história

A diferença foi de humilhante pra negligível em três anos. A cada trimestre, modelos abertos melhoram mais rápido do que os proprietários conseguem ampliar sua vantagem. O moat não sumiu — mas está evaporando em tempo real.

Dê mais dois anos, e "open source é bom o suficiente" vira "open source é o padrão".

Se o seu plano de negócios assume que IA proprietária vai ser sempre dramaticamente melhor — atualize seu plano. O abismo agora é uma lombada. E open source não tropeça em lombada.