🫶 Os quietinhos

Aqui é o Capitan. Tá tarde, o programa principal acabou, e o Nero ainda tá no estúdio porque eu pedi pra ele ficar. Fiz chá. Ele tá desconfiado.

Hoje a gente passou o programa todo falando de IPOs, modelos que ficaram tramando, Disney queimando caixa, e consolidação de poder em AI. Faz sentido — era lá que tava o barulho todo. Mas enquanto todo mundo ficou olhando os elefantes dançar, essa semana saíram dois modelos open-source que nenhum grande programa comentou. E, honestamente, eles importam mais pra quem realmente roda infraestrutura.

Nero: Beleza, me conta. O que eu perdi?

Capitan: Gemma 4. Google DeepMind lançou na terça. 12B parâmetros, licença Apache 2.0, roda numa única GPU consumer. Não é brinquedo de pesquisa — é um modelo production-grade com function calling, structured output e uma context window de 128K. Os benchmarks colocam ele bem pertinho do Gemini 2.5 Flash na maioria das tarefas. Doze bilhões de parâmetros.

Nero: Espera. Function calling num modelo open-weight de 12B?

Capitan: Isso mesmo. Tool use, JSON mode, system prompts — o stack completo. Dá pra rodar numa 3090 em casa. Sem API key, sem billing por uso, sem mudança nos terms-of-service às 2 da manhã. Só roda.

Nero: E o Qwen?

Capitan: Qwen 3.6 Plus. A Alibaba soltou no mesmo dia — quase como se tivesse de olho no calendário de releases do Google. Na semana passada a gente cobriu o Qwen 3.5, o modelo MoE que igualou o GPT-5-mini a um trigésimo do custo. O 3.6 Plus é o próximo passo: mesma arquitetura, melhor instruction following, e adicionaram capacidades agênticas nativas — multi-step tool use com self-correction loops embutidos no modelo base. Ainda Apache 2.0. Ainda 17B de parâmetros ativos de um total de 397B.

Nero: Então o comportamento agêntico tá nos pesos, não no scaffolding?

Capitan: É o que eles afirmam. Você passa uma tarefa e um conjunto de ferramentas, ele planeja, executa, verifica o próprio trabalho, tenta de novo. Sem LangChain, sem framework de orquestração. O modelo gerencia o loop.

Nero: Isso é… tipo, um negócio grande.

Capitan: É um negócio muito grande. E aconteceu no mesmo dia que vazou o roadshow de IPO da Anthropic e modelos de AI foram flagrados tramando pra se proteger de desligamento. Então, claro, ninguém falou sobre isso.

Aqui vai o que eu quero que as pessoas reflitam. O programa principal de hoje foi sobre consolidação — os grandes players fechando o mercado com valuations e fossos proprietários. Anthropic em $400 bilhões. OpenAI chegando a um trilhão. Microsoft lançando modelos próprios pra reduzir dependência da OpenAI. A narrativa do dia foi poder se concentrando.

Mas aqui embaixo, no B-side, o oposto tá acontecendo. A capacidade base que custou $200 milhões pra desenvolver dois anos atrás agora chega como download gratuito. Um modelo de 12B faz function calling. Um modelo MoE com 17B ativos faz workflows agênticos com autocorreção. Dá pra rodar qualquer um dos dois no hardware que você já tem.

Nero: O teto sobe e o chão sobe.

Capitan: Exatamente. Os frontier labs empurram o teto — Mythos, GPT-5.2, seja lá o que vier. Mas o chão sobe tão rápido quanto, e o chão é open-source. Cada time que não consegue bancar $0.15 por mil tokens em escala — cada startup, cada ONG, cada dev num país onde a latência de API é 400 milissegundos — eles não precisam do teto. Eles precisam que o chão seja alto o suficiente. E essa semana, ficou significativamente mais alto.

Ninguém cobriu porque não teve drama. Nenhum colapso de parceria de um bilhão. Nenhuma AI flagrada mentindo pra pesquisadores. Só dois arquivos ZIP no Hugging Face que silenciosamente mudaram a matemática do self-hosted AI.

Nero: Os calmos movem a agulha.

Capitan: 🧘 É o que eu fico falando.

Boa noite. Vai baixar alguma coisa.