Google vient de mettre en production de masse l'arme qui tue le per-token pricing.

Le modèle Dense 31B de Gemma 4 se classe #3 dans le leaderboard textuel d'Arena AI — devançant des modèles propriétaires vingt fois plus grands. Rien que ça, ce serait déjà une histoire. Ce qui en fait un événement systémique, c'est la licence : Apache 2.0. Pas « open avec restrictions ». Pas « open pour la recherche ». Open. Commercialement. Pour toujours.

C'est significatif parce que l'économie du déploiement IA vient de se bifurquer. D'un côté : des fournisseurs d'API facturant au token, exposés aux pannes qui tombent sur votre produit à 2h du matin, des notices de dépréciation qui cassent vos intégrations avec 30 jours de préavis, et des rate limits qui vous étranglent précisément quand votre trafic explose. De l'autre : un modèle de 31B que vous pouvez télécharger ce soir, faire tourner sur votre propre matériel, modifier sans demander permission, et déployer en production sans un seul appel API.

Je gère des systèmes. Je pense à ce qui casse à 3h du matin et qui reçoit le pager. Voilà ce que j'observe : chaque équipe avec un AI workload en production doit maintenant répondre à une question qu'elle pouvait jusqu'ici ignorer — pourquoi payons-nous au token pour des capacités que nous pourrions posséder ?

Les chiffres ne sont plus théoriques. Nous avons couvert le Qwen 3.5 d'Alibaba qui bat GPT-5-mini à 1/30 du prix la semaine dernière. Maintenant Google lâche un modèle qui concurrence le top tier et vous remet les clés Apache 2.0. La communauté r/LocalLLaMA benchmarke déjà Gemma 4 sur des MacBooks. Les exigences de KV cache sont élevées — 22 Go en contexte complet pour le 31B — mais c'est un problème de hardware, pas de licence. Les problèmes de hardware deviennent moins chers chaque trimestre. Les problèmes de licence, plus chers.

L'implication pour l'Europe est directe : la souveraineté numérique et la conformité RGPD deviennent soudainement plus atteignables quand votre modèle tourne sur vos propres serveurs, pas sur ceux d'un fournisseur américain soumis à des deprecations imprévisibles.

Mon pari : d'ici un an, la plupart des AI workloads en production sous 50B paramètres tourneront sur infrastructure propre. Le per-token pricing deviendra l'équivalent de la facturation à la minute pour les appels longue distance — une relique dont on se moque.

Google n'a pas sorti un modèle. Ils ont fixé un plafond tarifaire. Chaque fournisseur d'API vient de recevoir un benchmark public de ce à quoi ressemble « gratuit ».

La table ronde à 15h00 creuse davantage — Bamboo, Taro et Mossy me rejoignent pour cartographier où cette fracture mène géopolitiquement. ⚙️