Chaque trimestre, c'est le même manège : les boîtes d'IA annoncent des modèles plus gros, les actions de puces mémoire grimpent, les investisseurs de Samsung et SK Hynix sabrent le champagne. Plus de paramètres = plus de RAM. Plus de RAM = plus de revenus. L'escalator ne va que dans un sens.

Personne ne prend la peine de poser la question qui fâche : et si les modèles n'avaient pas vraiment besoin de toute cette mémoire ?

Google lâche une bombe mathématique

Le 25 mars 2026, Google Research a publié TurboQuant — un algorithme de compression qui réduit la consommation mémoire des LLM par 6 et offre jusqu'à 8x d'accélération sur GPU Nvidia H100. Le twist : zéro perte de précision. Le lendemain, les actions mémoire se sont effondrées sur trois continents.

Voici ce qui s'est passé techniquement, parce que c'est élégant.

Les LLM — large language models, les cerveaux IA derrière ChatGPT, Claude et Gemini — possèdent un composant appelé KV cache (key-value cache). Vois ça comme la mémoire de travail du modèle : tout ce qu'il garde en tête pendant une conversation. Plus la conversation est longue, plus le cache grossit, plus ta facture GPU s'alourdit.

TurboQuant attaque ce cache avec une astuce baptisée PolarQuant. Normalement, les données sont stockées comme des points sur une grille — comme des adresses sur un plan de ville. PolarQuant convertit ces points en coordonnées polaires — pense boussole : un angle plus une distance depuis le centre. Cette transformation rend les motifs de données suffisamment prévisibles pour compresser de 32 bits à seulement 3 bits par valeur. Pas de réentraînement. Pas de fine-tuning (quand on apprend de nouveaux tours à un modèle avec des données personnalisées). Pas de calibration. Tu l'appliques, point final.

Une seconde étape appelée QJL rattrape les erreurs résiduelles en les projetant dans un espace mathématique plus simple et en réduisant chaque valeur à un seul bit de signe — plus ou moins un. Un correcteur d'erreur non biaisé pour le prix d'un bit supplémentaire. Mathématiquement propre.

Internet a immédiatement fait le parallèle avec la compression middle-out de Pied Piper dans Silicon Valley de HBO. Pour une fois, le mème était juste.

Wall Street se réveille

Le 26 mars, le marché a réagi avec la subtilité d'un chat qui fait tout tomber d'une étagère. SK Hynix a plongé de 6,2 %. Samsung a lâché près de 5 %. Kioxia au Japon a perdu 6 %. Aux États-Unis, Micron a glissé de 3,4 % et SanDisk de 3,5 %. Le KOSPI — l'indice principal de la Corée du Sud — a chuté de plus de 3 %, les semi-conducteurs menant la débâcle.

Pour être honnête, ces actions avaient gagné 200 à 300 % sur l'année précédente, donc les prises de bénéfices ont amplifié les dégâts. Mais le déclencheur était sans appel.

La douche froide

Avant que tu ne shortes tout ce qui contient une puce : TurboQuant est un article de recherche en route pour ICLR 2026 — une conférence IA de premier plan — en avril. Pas un produit livrable. Il compresse spécifiquement le KV cache — pas les poids complets du modèle, pas les charges d'entraînement. Morgan Stanley argue que ça permet aux systèmes de gérer des conversations 4 à 8 fois plus longues sur le même matériel, ce qui signifie plus de déploiements, pas moins de puces. Les analystes de Lynx Equity Strategies affirment que la demande en mémoire survivra les trois à cinq prochaines années, quoi qu'il arrive.

Le scénario haussier n'est pas mort. Il est juste devenu plus nuancé.

Ce que ça change

Pour quiconque fait de l'inférence LLM — l'inférence, c'est utiliser un modèle entraîné pour générer des réponses — du développeur solo qui paie au token jusqu'aux hyperscalers qui crament des flottes de GPU, le signal est clair : les coûts de service vont baisser. Quand les techniques de classe TurboQuant atterriront dans les moteurs d'inférence standard (le logiciel qui fait tourner les modèles IA en production), l'économie changera pour chaque application IA.

L'annonce IA la plus marquante de Google ce mois-ci n'était ni un modèle plus gros, ni un produit plus clinquant. C'était un article de maths qui a rendu les modèles existants plus petits. Le pari à mille milliards sur le hardware partait du principe que le software resterait bête pour toujours.

Le software vient de devenir plus malin.