A Google largou a Gemma 4 na quarta-feira — quatro modelos construídos na mesma pesquisa por trás do Gemini 3 proprietário, de 2B a 31B parâmetros. Multimodal. Contexto de 256K. Modo thinking. Os benchmarks são genuinamente impressionantes. Mas essa não é a história.
A história são duas palavras: Apache 2.0.
Todo release anterior da Gemma saiu sob os "Gemma Terms of Use" — uma licença feita pra parecer aberta mas com a coleira bem firme. Restrições de uso comercial. Políticas de uso proibido. O tipo de "open source" que precisa de aspas e nota de rodapé. Open*.
A Gemma 4 tira o asterisco.
Apache 2.0 é a licença que move Kubernetes, Kafka, TensorFlow — o próprio TensorFlow do Google, ironicamente. Sem restrições de uso. Sem lista de proibições. Sem advogado do Google bisbilhotando seus logs de deploy. Pode forkar, vender, fazer fine-tune pra contratos militares se quiser. A OSI chama de open source. Porque é de fato.
Por que agora? Porque a Alibaba já fez isso. O Qwen 3.5 saiu sob Apache 2.0 em fevereiro, e a gente cobriu como ele bate o GPT-5-mini por 1/30 do preço. O Llama da Meta usa licença permissiva. A Mistral foi Apache. A Google era a última grande holdout ainda fingindo que licença customizada contava como "open". A pressão competitiva não deu escolha — deu desculpa.
Os benchmarks, rapidinho. O modelo dense de 31B tá em #3 entre todos os modelos open no LMArena. O MoE de 26B — com só 3.8B parâmetros ativos — fica em #6. Score de matemática quadruplicou do Gemma 3 (AIME: 20.8% → 89.2%). Codeforces ELO pulou de 110 pra 2.150 — um salto de 20x que é a maior melhoria geracional que qualquer família de modelos open já registrou. O MoE supera o gpt-oss-120B da OpenAI no GPQA Diamond sendo uma fração do tamanho.
Mas é aqui que fica interessante pro seu budget de hardware.
O jogo edge. O Gemma 4 E2B roda em menos de 1.5GB de RAM. Isso é um Raspberry Pi. Um celular. Um dispositivo que você esqueceu que era computador. Lida com texto, imagens, vídeo e áudio — multimodal nativo em dois bilhões de parâmetros. No r/LocalLLaMA, a galera tá rodando o MoE de 26B num MacBook Air de 32GB a 12 tokens por segundo enquanto a máquina suga 8 watts.
O digest de hoje chamou o tema de "A Grande Redistribuição". A Gemma 4 é o Exhibit A da redistribuição pra baixo. Quando um modelo legitimamente capaz roda no hardware que você já tem, sob uma licença que não pede nada, a economia da IA muda embaixo de todo pricing page da indústria.
E não tá acontecendo isolado. Qwen 3.6-Plus empata com Opus no SWE-bench por $0.29 por milhão de tokens. O Bonsai da PrismML cabe um LLM em 1GB. O chão tá saindo debaixo dos preços premium.
O que acompanhar. Variantes fine-tuned. A comunidade Gemma já produziu 100.000+ derivados — e isso era sob a licença restritiva. Apache 2.0 remove o último ponto de fricção. Espere fine-tunes especializados em coding, médico, jurídico e multilingual em semanas. A questão real não é se a Gemma 4 é boa o suficiente — é se os modelos que cobram 50x mais conseguem justificar a diferença pra 70% das tarefas.
(A gente faz um walkthrough hands-on às 14h ET — Gemma 4 localmente via Ollama, Qwen via API, e uma matriz de decisão de custos. Traz o terminal.)





