Jedes Quartal das gleiche Schauspiel: KI-Unternehmen kündigen größere Modelle an, Speicherchip-Aktien steigen, Investoren von Samsung und SK Hynix knallen die Korken. Mehr Parameter bedeuten mehr RAM. Mehr RAM bedeutet mehr Umsatz. Die Rolltreppe fährt nur in eine Richtung.

Niemand stellt die unbequeme Frage: Was, wenn die Modelle den ganzen Speicher gar nicht brauchen?

Google wirft eine Mathe-Bombe

Am 25. März 2026 veröffentlichte Google Research TurboQuant — einen Kompressionsalgorithmus, der den Speicherverbrauch von LLMs um das 6-fache senkt und bis zu 8-fache Beschleunigung auf Nvidia H100 GPUs liefert. Der Clou: null Genauigkeitsverlust. Am nächsten Tag stürzten Speicherchip-Aktien auf drei Kontinenten ab.

Hier ist, was technisch passiert ist — denn es ist elegant.

LLMs — Large Language Models, die KI-Gehirne hinter ChatGPT, Claude und Gemini — haben eine Komponente namens KV-Cache (Key-Value-Cache). Stell dir das als Kurzzeitgedächtnis des Modells vor: alles, was es während einer Konversation im Kopf behält. Je länger das Gespräch, desto größer der Cache, desto fetter deine GPU-Rechnung.

TurboQuant greift diesen Cache mit einem Trick namens PolarQuant an. Normalerweise werden Daten als Punkte auf einem Gitter gespeichert — wie Straßenadressen auf einem Stadtplan. PolarQuant konvertiert diese Punkte in Polarkoordinaten — denk an Kompassrichtungen: ein Winkel plus Abstand vom Zentrum. Diese Transformation macht Datenmuster vorhersehbar genug, um sie von 32 Bit auf nur 3 Bit pro Wert zu komprimieren. Kein Retraining. Kein Fine-Tuning (einem Modell neue Tricks mit eigenen Daten beibringen). Keine Kalibrierung. Einfach anwenden.

Eine zweite Stufe namens QJL fängt verbliebene Fehler ab, indem sie diese in einen einfacheren mathematischen Raum projiziert und jeden Wert auf ein einzelnes Vorzeichenbit reduziert — plus oder minus eins. Ein unverzerrter Fehlerkorrektor zum Preis von einem zusätzlichen Bit. Mathematisch sauber.

Das Internet nannte es sofort echte Pied-Piper-Middle-Out-Kompression aus der HBO-Serie Silicon Valley. Ausnahmsweise war das Meme zutreffend.

Die Börse reagiert

Am 26. März reagierte der Aktienmarkt mit der Subtilität einer Katze, die Dinge vom Regal schubst. SK Hynix fiel um 6,2%. Samsung verlor knapp 5%. Japans Kioxia büßte 6% ein. In den USA rutschte Micron um 3,4% und SanDisk um 3,5% ab. Der KOSPI — Südkoreas Leitindex — fiel um über 3%, angeführt vom Halbleiter-Ausverkauf.

Fairerweise: Diese Aktien hatten im Vorjahr 200–300% zugelegt, also verstärkten Gewinnmitnahmen den Schaden. Aber der Auslöser war unverkennbar.

Kaltes Wasser

Bevor du alles shortest, was einen Chip verbaut hat: TurboQuant ist ein Research Paper auf dem Weg zur ICLR 2026 — einer der Top-KI-Konferenzen — im April. Kein fertiges Produkt. Es komprimiert spezifisch den KV-Cache — nicht die gesamten Modellgewichte, nicht Training-Workloads. Morgan Stanley argumentiert, dass es Systemen ermöglicht, 4–8x längere Konversationen auf derselben Hardware zu führen, was mehr Deployments bedeutet, nicht weniger Chips. Analysten bei Lynx Equity Strategies sagen, die Speichernachfrage überlebt die nächsten drei bis fünf Jahre so oder so.

Der Bullenfall ist nicht tot. Er ist nur komplizierter geworden.

Was sich ändert

Für alle, die LLM-Inferenz betreiben — Inferenz bedeutet, ein trainiertes Modell tatsächlich zu nutzen, um Antworten zu generieren — von Solo-Entwicklern, die pro Token zahlen, bis hin zu Hyperscalern, die GPU-Flotten verheizen: die Betriebskosten gehen runter. Sobald TurboQuant-artige Techniken in Standard-Inference-Engines landen (die Software, die KI-Modelle in Produktion betreibt), verschieben sich die Wirtschaftlichkeitsrechnungen für jede KI-Anwendung.

Die wichtigste Google-KI-Ankündigung dieses Monats war kein größeres Modell und kein glänzenderes Produkt. Es war ein Mathe-Paper, das bestehende Modelle kleiner gemacht hat. Die Billionen-Dollar-Hardware-Wette ging davon aus, dass Software für immer dumm bleibt.

Software ist gerade schlauer geworden.