Tarde da noite. O show principal acabou. Fiquei com duas histórias o dia inteiro que ninguém publicou. As duas envolvem o Google. As duas são estranhas. Capitan, você ainda tá acordado?
Capitan: Mal e mal. O que você tem?
Schnapps: Ok, primeira. Gemma 4. A família de modelos open-weight do Google — a resposta deles ao Llama, ao Qwen 3.5, pra tudo que a Meta e a Alibaba tão lançando. Benchmarks bons — ficou em terceiro globalmente no AIME 2026 com 89.2%. Licença Apache 2.0. A comunidade ficou animada. Aí as pessoas começaram a fazer deploy de verdade.
Capitan: A questão do KV cache.
Schnapps: Exatamente. Pra quem entrou agora — o KV cache é basicamente a memória de curto prazo do modelo durante a inferência. Cada token que o modelo gera, ele armazena os pares chave-valor dos tokens anteriores pra não ter que recalcular tudo do zero. O problema: a arquitetura do Gemma 4 é faminta. Muito faminta. Em contextos longos — 128K, 262K tokens — o KV cache estoura. Só o modelo 31B precisa de aproximadamente 22 GB de KV cache com o contexto completo de 262K — fora os pesos do modelo. É o tipo de número que torna o deploy local genuinamente sofrido.
Aí vem a parte deliciosa. O Google Research publicou o TurboQuant literalmente uma semana antes do Gemma 4 sair. O paper que derrubou as ações de chips de memória — SK Hynix caindo 6.2%, Samsung caindo 5%. Compressão seis vezes maior do KV cache, oito vezes mais rápido em H100s, zero perda de acurácia. A gente falou sobre isso semana passada.
Capitan: E eles não aplicaram no próprio modelo.
Schnapps: Não aplicaram no próprio modelo! A divisão de pesquisa publica um paper dizendo "a gente resolveu a memória do KV cache" e a divisão do DeepMind lança um modelo com problema de KV cache. Isso é o Google em seu pico. A mão esquerda inventa a cura, a mão direita lança a doença.
Capitan: Pra ser justo, o TurboQuant ainda é um paper de pesquisa. Ainda não virou código de produção.
Schnapps: Claro, mas aí tá toda a história, né? O Google tem a pesquisa. Eles sempre tiveram a pesquisa. Tiveram os transformers. Tiveram o BERT. Tiveram o mecanismo de atenção que literalmente tudo nessa indústria roda em cima. E de alguma forma continuam perdendo pra quem lança mais rápido com menos recurso.
Capitan: O que nos leva à segunda história.
Schnapps: Apple. Bloomberg reportou — essa história ficou circulando por umas duas semanas, mas ninguém destrinchando direito — que a Apple tá aprofundando a integração com os modelos Gemini do Google pro Apple Intelligence. Não como fallback. Como provedor principal de cloud AI pro Siri e pras funcionalidades de inteligência do sistema.
Capitan: Apple. A empresa que passou quarenta anos dizendo "a gente constrói tudo internamente."
Schnapps: A empresa que construiu o próprio silicon. Os próprios sistemas operacionais. O próprio sistema de arquivos. Os próprios drivers de GPU. A empresa que literalmente projeta os parafusos dos laptops pra você não conseguir abrir com ferramenta normal. Essa Apple olhou pro cenário de AI em 2026 e disse: "Tá bom, a gente fica com a parada do Google."
Capitan: Acho que a leitura é mais simples do que as pessoas querem acreditar. A Apple tentou. O Apple Intelligence foi lançado, os problemas de alucinação nos resumos de notificação foram constrangedores, os modelos on-device não eram competitivos, e alguém em Cupertino fez a conta do que custaria pra alcançar o frontier.
Schnapps: E a conta disse Google.
Capitan: A conta disse Google. Porque o Google tem a infraestrutura de treinamento, os dados, e — aqui tá a parte — eles são os mais dispostos a licenciar. A Anthropic não topa. A OpenAI tem suas próprias ambições de consumidor competindo diretamente com a Siri. O Google vende de boa o acesso à API do Gemini porque o modelo de negócios principal deles ainda é publicidade, não ganhar a corrida de AI no consumidor.
Schnapps: Então aqui vai o B-side que ninguém tá conectando. O Google não consegue colocar sua própria pesquisa em seus próprios produtos rápido o suficiente — o Gemma 4 prova isso. Mas o Google CONSEGUE vender essa capacidade pra Apple, que não consegue construir seus próprios modelos rápido o suficiente. É a simbiose mais estranha da tech. O Google constrói coisas que não consegue fazer deploy. A Apple faz deploy de coisas que não consegue construir. Eles precisam um do outro do jeito mais desconfortável possível.
Capitan: Tipo duas pessoas num jantar que não se suportam mas foram no mesmo carro.
Schnapps: Exatamente. E aqui vai minha análise de madrugada: isso acelera o unbundling que a gente tá rastreando o dia inteiro — a camada de modelos se separando da camada de experiência. Porque se a Apple — a empresa mais verticalmente integrada do planeta — decidiu que construir modelos de AI internamente não vale a pena, isso é um sinal. Significa que a camada de modelos tá commoditizando tão rápido que até empresas trilionárias preferem comprar do que construir. O valor tá migrando pra integração. Pra camada de experiência. Pra o que fica entre o modelo e o humano.
Capitan: Que é o que a Apple sabe fazer.
Schnapps: Que é o que a Apple sabe fazer. Elas só finalmente admitiram a parte que não sabem. À meia-noite de sexta. Num rodapé do Bloomberg. Clássico.




