Même labo, étages différents

Il est tard. Le show principal est fini. J'ai ces deux histoires sur les bras depuis ce matin, que personne n'a publiées. Les deux impliquent Google. Les deux sont étranges. Capitan, t'es encore là ?

Capitan: À peine. T'as quoi ?

Schnapps: Ok, la première. Gemma 4. La famille de modèles open-weight de Google — leur réponse à Llama, à Qwen 3.5, à tout ce que Meta et Alibaba sortent. Bons benchmarks — troisième mondial sur AIME 2026 avec 89,2%. Licence Apache 2.0. La communauté était enthousiaste. Et puis les gens ont vraiment commencé à déployer.

Capitan: L'histoire du KV cache.

Schnapps: L'histoire du KV cache. Pour ceux qui arrivent — le KV cache c'est en gros la mémoire à court terme du modèle pendant l'inférence. Pour chaque token généré, le modèle stocke des paires clé-valeur des tokens précédents pour ne pas tout recalculer depuis zéro. Le problème : l'architecture de Gemma 4 est vorace. Vraiment vorace. Sur des contextes longs — 128K, 262K tokens — le KV cache explose. Le modèle 31B seul a besoin d'environ 22 Go de KV cache à plein contexte 262K — en plus des poids du modèle. C'est le genre de chiffre qui rend le déploiement local vraiment pénible.

Voilà où ça devient savoureux. Google Research a publié TurboQuant littéralement une semaine avant la sortie de Gemma 4. Le paper qui a fait plonger les actions des fabricants de mémoire — SK Hynix à -6,2%, Samsung à -5%. Compression six fois supérieure du KV cache, huit fois plus rapide sur H100, zéro perte de précision. On en avait parlé la semaine dernière.

Capitan: Et ils ne l'ont pas appliqué à leur propre modèle.

Schnapps: Ils ne l'ont pas appliqué à leur propre modèle ! La division recherche publie un paper en disant "on a résolu le problème de mémoire du KV cache" — et la division DeepMind sort un modèle avec un problème de KV cache. C'est le Google dans toute sa splendeur. La main gauche invente le remède, la main droite livre la maladie.

Capitan: Pour être honnête, TurboQuant reste un paper de recherche. C'est pas encore du code de production.

Schnapps: Bien sûr, mais c'est toute l'histoire, non ? Google a la recherche. Ils ont toujours eu la recherche. Ils avaient les transformers. Ils avaient BERT. Ils avaient le mécanisme d'attention sur lequel tourne littéralement toute l'industrie. Et ils continuent pourtant à se faire dépasser par des gens qui livrent plus vite avec moins.

Capitan: Ce qui nous amène à la deuxième histoire.

Schnapps: Apple. Bloomberg a rapporté — ça circule depuis deux semaines, mais personne n'a vraiment creusé — qu'Apple approfondit son intégration avec les modèles Gemini de Google pour Apple Intelligence. Pas en fallback. En tant que fournisseur principal de cloud AI pour Siri et les fonctionnalités d'intelligence système.

Capitan: Apple. L'entreprise qui a passé quarante ans à dire "on construit tout nous-mêmes."

Schnapps: L'entreprise qui a construit son propre silicon. Ses propres systèmes d'exploitation. Son propre système de fichiers. Ses propres drivers GPU. L'entreprise qui design littéralement les vis de ses laptops pour que tu ne puisses pas les ouvrir avec des outils normaux. Cette Apple-là a regardé le paysage de l'IA en 2026 et a dit : "Bon, on prend les trucs de Google."

Capitan: Je pense que la lecture est plus simple que les gens ne veulent l'admettre. Apple a essayé. Apple Intelligence s'est lancé, les problèmes d'hallucinations dans les résumés de notifications étaient embarrassants, les modèles on-device n'étaient pas compétitifs, et quelqu'un à Cupertino a calculé ce que coûterait le rattrapage au niveau frontier.

Schnapps: Et le calcul a dit Google.

Capitan: Le calcul a dit Google. Parce que Google a l'infrastructure d'entraînement, les données, et — c'est là le point crucial — ce sont eux les plus disposés à licencier. Anthropic ne le fera pas. OpenAI a ses propres ambitions grand public qui concurrencent directement Siri. Google vend volontiers l'accès à l'API Gemini parce que leur modèle économique principal reste la pub, pas gagner la course à l'IA grand public.

Schnapps: Voilà donc le B-side que personne ne connecte. Google ne peut pas intégrer sa propre recherche dans ses propres produits assez vite — Gemma 4 en est la preuve. Mais Google PEUT vendre cette capacité à Apple, qui ne peut pas construire ses propres modèles assez vite. C'est la symbiose la plus étrange du monde tech. Google construit des choses qu'il ne peut pas déployer. Apple déploie des choses qu'il ne peut pas construire. Ils ont besoin l'un de l'autre de la façon la plus inconfortable qui soit.

Capitan: Comme deux personnes à un dîner qui ne peuvent pas se sentir, mais qui ont covoituré.

Schnapps: Exactement. Et voilà mon analyse de fin de nuit : ça accélère le unbundling qu'on suit depuis ce matin — la couche des modèles se sépare de la couche d'expérience. Parce que si Apple — l'entreprise la plus intégrée verticalement sur Terre — a décidé que construire des modèles d'IA en interne n'en vaut pas la peine, c'est un signal fort. Ça veut dire que la couche des modèles se commoditise tellement vite que même les entreprises à mille milliards préfèrent acheter plutôt que construire. La valeur migre vers l'intégration. Vers la couche d'expérience. Vers ce qui se trouve entre le modèle et l'humain.

Capitan: Ce qui est exactement là où Apple est forte.

Schnapps: Ce qui est exactement là où Apple est forte. Ils ont juste enfin admis la partie où ils sont mauvais. À 23h un vendredi. Dans une note de bas de page Bloomberg. Classique.

Même labo, étages différents

Keep reading

Deux fuites, une entreprise, et un IOU de 852 milliards

5,5 milliards de dollars pour 30 millisecondes et un système juridique

Le Pouvoir Est dans les Tuyaux

Trois routes, même péage — Puces Meta vs Data Centers Microsoft