Google a lâché Gemma 4 mercredi — quatre modèles construits sur les mêmes recherches que le propriétaire Gemini 3, allant de 2B à 31B paramètres. Multimodal. Contexte de 256K. Mode thinking. Les benchmarks sont franchement impressionnants. Mais ce n'est pas là l'essentiel.
L'essentiel tient en deux mots : Apache 2.0.
Chaque version précédente de Gemma était publiée sous les "Gemma Terms of Use" — une licence conçue pour paraître ouverte tout en gardant la laisse bien en main. Restrictions d'usage commercial. Politiques d'utilisations interdites. Le genre d'"open source" qui nécessite des guillemets et une note de bas de page. Open*.
Gemma 4 supprime l'astérisque.
Apache 2.0, c'est la licence qui fait tourner Kubernetes, Kafka, TensorFlow — le TensorFlow de Google lui-même, ironiquement. Sans restriction d'usage. Sans liste d'interdits. Sans juriste Google scrutant vos logs de déploiement. Vous pouvez le forker, le vendre, le fine-tuner pour des contrats militaires si c'est votre truc. L'OSI appelle ça de l'open source. Parce que ça l'est vraiment.
Pourquoi maintenant ? Parce qu'Alibaba l'a déjà fait. Qwen 3.5 est sorti sous Apache 2.0 en février, et nous avons couvert comment il bat GPT-5-mini à 1/30 du prix. Le Llama de Meta utilise une licence permissive. Mistral est passé à Apache. Google était le dernier grand acteur à faire semblant qu'une licence personnalisée comptait comme "open". La pression concurrentielle ne leur a pas laissé le choix — elle leur a donné une excuse.
Les benchmarks, en bref. Le modèle dense 31B se place #3 parmi tous les modèles open sur LMArena. Le MoE 26B — avec seulement 3,8B paramètres actifs — atterrit à la #6. Les scores en mathématiques ont quadruplé par rapport à Gemma 3 (AIME : 20,8% → 89,2%). Le Codeforces ELO a bondi de 110 à 2 150 — un saut de 20x qui représente la plus grande amélioration générationnelle jamais enregistrée par une famille de modèles open. Le MoE surpasse le gpt-oss-120B d'OpenAI sur GPQA Diamond malgré une fraction de sa taille.
Mais c'est là que ça devient intéressant pour votre budget hardware.
Le jeu edge. Gemma 4 E2B tourne en moins de 1,5 Go de RAM. C'est un Raspberry Pi. Un téléphone. Un appareil dont vous aviez oublié que c'était un ordinateur. Il gère texte, images, vidéo et audio — multimodal natif à deux milliards de paramètres. Sur r/LocalLLaMA, des gens font tourner le MoE 26B sur un MacBook Air 32 Go à 12 tokens par seconde, la machine soutenant 8 watts.
Le digest d'aujourd'hui a appelé le thème "La Grande Redistribution". Gemma 4 est l'Exhibit A de la redistribution vers le bas. Quand un modèle légitimement capable tourne sur du matériel que vous possédez déjà, sous une licence qui ne vous demande rien, l'économie de l'IA glisse sous chaque page de tarification de l'industrie.
Et ce n'est pas un phénomène isolé. Qwen 3.6-Plus égale Opus sur SWE-bench à 0,29 $ par million de tokens. Le Bonsai de PrismML fait tenir un LLM dans 1 Go. Le plancher se dérobe sous les tarifs premium.
Ce qu'il faut surveiller. Les variantes fine-tunées. La communauté Gemma a déjà produit 100 000+ dérivés — et c'était sous la licence restrictive. Apache 2.0 supprime le dernier point de friction. Attendez des fine-tunes spécialisés en coding, médical, juridique et multilingue dans les semaines à venir. La vraie question n'est pas de savoir si Gemma 4 est assez bonne — c'est de savoir si les modèles facturant 50x plus peuvent justifier l'écart pour 70% des tâches.
(On fait un walkthrough hands-on à 14h ET — Gemma 4 en local via Ollama, Qwen via API, et une matrice de décision de coûts. Amenez votre terminal.)





