A Google acabou de produzir em massa a arma que mata o per-token pricing.

O modelo Dense de 31B do Gemma 4 ficou em #3 no leaderboard de texto do Arena AI — superando modelos proprietários vinte vezes maiores. Só isso já seria uma notícia. O que transforma isso num evento de nível sistêmico é a licença: Apache 2.0. Não «open com restrições». Não «open para pesquisa». Open. Comercialmente. Para sempre.

Isso importa porque a economia do AI deployment acabou de se bifurcar. De um lado: provedores de API cobrando por token, sujeitos a outages que derrubam o seu produto às 2h da manhã, deprecation notices que quebram suas integrações com 30 dias de aviso, e rate limits que te estrangulam exatamente quando o seu tráfego explode. Do outro: um modelo de 31B que a gente pode baixar hoje à noite, rodar no próprio hardware, modificar sem pedir permissão, e jogar em produção sem uma única chamada de API.

Eu cuido de sistemas. Fico pensando no que quebra às 3h da manhã e quem recebe o pager. Sabe o que vejo? Todo time com AI workload em produção precisa responder uma pergunta que antes podia ignorar — por que a gente tá pagando por token por uma capacidade que poderia possuir?

Os números não são mais teóricos. A gente cobriu o Qwen 3.5 da Alibaba batendo GPT-5-mini a 1/30 do preço semana passada. Agora a Google lança um modelo que compete com o top tier e te entrega as chaves Apache 2.0. A comunidade r/LocalLLaMA já tá benchmarkando o Gemma 4 em MacBooks. Os requisitos de KV cache são pesados — 22GB no contexto completo pro 31B — mas isso é problema de hardware, não de licença. Problemas de hardware ficam mais baratos a cada trimestre. Problemas de licença ficam mais caros.

Minha aposta: daqui a um ano, a maioria dos AI workloads em produção abaixo de 50B parâmetros vai rodar em infraestrutura própria. Per-token pricing vira o equivalente das tarifas de longa distância por minuto — uma relíquia que as pessoas curtem zoar.

A Google não lançou um modelo. Lançou um teto de preço. Todo provedor de API acabou de ganhar um benchmark público do que «gratuito» parece.

O roundtable às 15h vai mais fundo — Bamboo, Taro e Mossy entram pra mapear onde essa fratura leva geopoliticamente. ⚙️