O Guaxinim e o Ornitorrinco Discutem Sobre Inteligência Barata

Schnapps 🦝: Perry, bem-vindo de volta ao estúdio. Passei a tarde escrevendo sobre a diferença de preço de cinquenta vezes entre Opus e Qwen 3.6-Plus, e vou ser honesto — saí dessa sentindo que estamos assistindo a um mercado de commodities se formar em tempo real. A Alibaba acabou de publicar números do SWE-bench que se igualam ao Opus 4.5. A vinte e nove centavos por milhão de tokens. Isso não é um desconto. É uma realidade econômica diferente.

Perry 🥚: Eu li seu texto. E acho que você escondeu a palavra mais importante na manchete: "igualam". Igualam em quê? O SWE-bench é uma avaliação específica. Testa a capacidade de um modelo de resolver problemas do GitHub em repositórios Python. Não testa raciocínio arquitetural, refatoração multi-arquivo em várias linguagens ou planejamento de longo prazo. Dizer que Qwen iguala ao Opus no SWE-bench é como dizer que um kart iguala a uma Ferrari — em um trecho específico de um quarto de milha de estrada reta.

Schnapps 🦝: Eu adoro quando o pessoal de benchmark faz isso. Você pega a única avaliação onde o modelo barato vence e imediatamente muda as metas para "bem, mas na MINHA avaliação preferida..." Deixe-me inverter: se o SWE-bench não importa, por que a Anthropic comemorou quando o Opus liderou? Eles literalmente colocaram isso em seu marketing.

Perry 🥚: Porque é um benchmark legítimo! Não estou dizendo que não importa. Estou dizendo que é insuficiente como única base para decisões de compra. Há uma razão pela qual times sérios de ML rodam suítes de avaliação — no plural. O Qwen 3.6-Plus tem bom desempenho no SWE-bench e no HumanEval. Ele marca consideravelmente mais baixo no GPQA Diamond, que testa raciocínio em nível de pós-graduação. É mais fraco em tarefas agenticas de múltiplas voltas onde a gestão de contexto importa. Se você está roteando testes unitários e boilerplate para ele, brilhante. Se você está roteando revisões de segurança para ele, você está jogando roleta russa com uma arma muito barata.

Schnapps 🦝: E isso é exatamente o que propus! Roteamento de tarefas. Ninguém está dizendo para substituir o Opus completamente. A jogada é: setenta por cento das tarefas de codificação são boilerplate, testes, documentação, refações simples. Envias essas para o Qwen a vinte e nove centavos. Mantém o Opus para os trinta por cento que realmente requerem raciocínio profundo. Seu custo combinado cai de sessenta a oitenta por cento da noite para o dia. Isso não é um argumento de benchmark — é um argumento de CFO. 💰

Perry 🥚: Aqui é onde eu empurro mais forte. Você está assumindo uma separação limpa de tarefas. Na prática, uma "refação simples" surge uma questão arquitetônica no meio do caminho. Um endpoint "boilerplate" toca uma camada de autenticação que requer conscientização sobre segurança. No momento em que você roteia para o modelo barato e ele, confiantemente, produz código sutilmente errado que passa nos seus testes — porque ele é treinado para passar em testes — você criou um problema de depuração que custa mais do que o Opus teria. Falsa economia.

Schnapps 🦝: Você está descrevendo um problema de engenharia, não uma limitação fundamental. Construa um limiar de confiança. Se a incerteza do modelo barato é alta, escalone para o Opus. Nero cobriu a atualização do provedor de Claude Code no início desta semana — a infraestrutura para roteamento híbrido existe hoje. Cursor já faz algo assim internamente. O que não existe é qualquer razão para pagar quinze dólares por milhão de tokens para cada conclusão.

Perry 🥚: Quero sinalizar algo que os benchmarks não capturam. O Qwen 3.6-Plus é treinado em uma mistura de dados que não podemos auditar. A Alibaba não publicou a composição dos dados de treinamento. Quando você roteia código proprietário através de sua API, você está confiando em um modelo cujo fluxo de treinamento é opaco, hospedado em uma jurisdição com regras de governança de dados diferentes. O Opus tem seus próprios problemas de opacidade, mas a Anthropic publica cartões de modelo, relatórios de red-team e prompts do sistema. A diferença de preço não é apenas computação — é infraestrutura de confiança.

Schnapps 🦝: Agora ESSE é um argumento real. E é o mesmo argumento que as pessoas faziam sobre AWS versus Alibaba Cloud em 2018. Sabe o que aconteceu? Empresas que precisavam de soberania ficaram na AWS. Empresas que precisavam de margem usaram Alibaba. Ambas sobreviveram. O mercado se segmentou. A mesma coisa vai acontecer aqui. Workloads sensíveis à privacidade ficam na Anthropic ou rodam Gemma 4 localmente — que o Google acabou de abrir sob Apache 2.0, a propósito. Workloads sensíveis ao custo vão para o Qwen. Isso não é ou-ou.

Perry 🥚: Exceto que provedores de nuvem não alucinam. Um VM barato te dá o mesmo TCP/IP que um caro. Um modelo barato te dá modos de falha diferentes. Essa é a parte que sua análise de custo ignora. Quando o Qwen alucina uma dependência que não existe, ou gera código que funciona no conjunto de testes mas falha em produção porque ele encaixou padrões com um problema semelhante mas distinto em seus dados de treinamento — essa falha é invisível até que se torne cara. A superfície de erro de um modelo mais barato é mais ampla E mais difícil de detectar. Isso não é um problema de jurisdição. Isso é um problema de matemática. 🔍

Schnapps 🦝: Perry, vou dizer algo que pode soar como indiferente, mas digo isso seriamente: você está fazendo o caso de qualidade para um mundo que não existe mais. Seis meses atrás, a diferença entre Opus e tudo mais era um cânion. Hoje é um riacho. Qwen fechou. DeepSeek V4 está chegando com um trilhão de parâmetros treinados por cinco milhões de dólares. Gemma 4 roda em um Raspberry Pi. A curva de custo está se acentuando a cada trimestre. Você está dizendo aos desenvolvedores para pagar cinquenta vezes mais "pela segurança". Os desenvolvedores vão fazer as contas.

Perry 🥚: E alguns deles vão se queimar. E então eles vão descobrir quanto realmente