Você paga três dólares por milhão de tokens toda vez que seu app chama o Claude Sonnet. Talvez rode GPT-5-mini a sessenta centavos e se ache esperto. De qualquer forma, San Francisco leva uma fatia em cada chamada de API, e a conta escala junto com seus usuários.

O problema é estrutural. Modelos proprietários de IA definem o preço mínimo, e todo mundo que constrói em cima herda a margem deles. Esse era o acordo — até alguém entregar um modelo que fosse bom o suficiente e praticamente de graça. A pergunta nunca foi se. Era se o negócio sobreviveria ao contato com produção.

Em 16 de fevereiro, o Alibaba Cloud lançou o Qwen 3.5 — um modelo Mixture-of-Experts com 397 bilhões de parâmetros que ativa apenas 17 bilhões por token. Em vez de arrastar a rede neural inteira por cada pergunta, o MoE direciona cada tarefa para os neurônios especialistas que melhor a resolvem. Como chamar só o encanador em vez de convocar todos os pedreiros do bairro por um cano furado. O Alibaba licenciou todas as variantes sob Apache 2.0 — livre para uso comercial, modificação, revenda — e soltou modelos médios e pequenos nas duas semanas seguintes.

Os benchmarks pareciam absurdos. O Qwen3.5-27B cravou 72.4 no SWE-bench Verified — empatando com o GPT-5 mini no decimal. A variante 9B superou modelos 13 vezes maiores em raciocínio de nível pós-graduação. O Alibaba precificou a API em dez centavos por milhão de tokens de entrada — 30x mais barato que o Claude Sonnet, 6x mais barato que o GPT-5-mini. Mas os labs chineses de modelos têm uma tradição orgulhosa de turismo de benchmark: pontuações que ficam lindas no papel e derretem no contato com cargas reais de trabalho. Então todo mundo prendeu a respiração.

Seis semanas depois, os números se mantiveram — e melhoraram. A família Qwen ultrapassou 600 milhões de downloads no Hugging Face, gerando mais de 170.000 modelos derivados. A GoTo da Indonésia migrou metade da sua infraestrutura para o Alibaba Cloud. A AI Singapore escolheu o Qwen em vez do Llama da Meta e do Gemma do Google como base para seu modelo de linguagem regional — e liderou o ranking do Sudeste Asiático com ele. O mecanismo de atenção híbrida — 75% Gated DeltaNet leve misturado com 25% de atenção tradicional — entregou 8.6x mais throughput em contexto de 32K em produção, não num laboratório. Empresas reais. Cargas reais. Dinheiro real economizado.

Aí o pessoal que construiu tudo isso caiu fora.

Em 3 de março — um dia depois do lançamento do modelo pequeno — Lin Junyang, líder técnico do Qwen, postou "me stepping down. bye my beloved qwen" no X. Um colega escreveu que sair não foi escolha dele. Yu Bowen, chefe de pós-treinamento, saiu no mesmo dia. Hui Binyuan, que liderava o Qwen Code, já tinha desertado para a Meta em janeiro. Três das mentes técnicas mais seniores do time, fora em dez semanas. O CEO do Alibaba trouxe uma contratação do DeepMind e pivotou de idealismo open-source para métricas de DAU e deploy comercial. Movimento corporativo clássico: espere os engenheiros construírem algo extraordinário, depois reorganize-os para fora da empresa.

Os arquitetos saíram. A arquitetura ficou.

É isso que a maioria das pessoas não entende sobre Apache 2.0. O Alibaba pode implodir todo o seu lab de IA amanhã e não muda nada. Os pesos estão no Hugging Face. O código está no GitHub. Aqueles 170.000 modelos derivados não devem nada ao Alibaba e não vão a lugar nenhum. Você pode fazer fork do Qwen 3.5 hoje e ninguém pode tomar de volta — legal, técnica ou praticamente. Open source não precisa dos pais depois que sai de casa.

Antes de reescrever sua stack: ressalvas. Self-hosting de 397 bilhões de parâmetros ainda exige hardware pesado — pense em 8x GPUs H100 para o modelo completo. As variantes 4B e 9B rodam no seu notebook, mas não são elas que trocam socos com o Claude Sonnet. "Apache 2.0 do Alibaba" carrega peso geopolítico que alguns times de procurement empresarial se recusam a tocar. E um time de desenvolvimento decapitado significa que o Qwen 4, quando sair, é chute de qualquer um. Você está apostando num modelo com um presente comprovado e um roadmap incerto.

Seis semanas atrás, precificação de IA de fronteira morava exclusivamente em San Francisco. Agora mora num repo do Hugging Face — a trinta centavos por dólar, ou de graça. Open source não precisava vencer a guerra dos benchmarks. Precisava chegar perto o suficiente para que a diferença de preço se tornasse indefensável. O Qwen 3.5 cruzou essa linha. E diferente do time que o construiu, o modelo não vai a lugar nenhum.

#qwen #alibaba #opensource #aimodels #pricing