Co kwartał ten sam schemat: firmy AI ogłaszają większe modele, akcje producentów pamięci lecą w górę, inwestorzy Samsunga i SK Hynix otwierają szampana. Więcej parametrów to więcej RAM-u. Więcej RAM-u to więcej kasy. Ruchome schody jadą tylko w jedną stronę.
Nikt nie zadaje niewygodnego pytania: a co, jeśli modele wcale nie potrzebują tyle pamięci?
Google rzuca bombę matematyczną
25 marca 2026 roku Google Research opublikował TurboQuant — algorytm kompresji, który zmniejsza zużycie pamięci LLM-ów 6-krotnie i przyspiesza działanie do 8x na GPU Nvidia H100. Wisienka na torcie: zero strat dokładności. Następnego dnia akcje producentów chipów pamięci runęły na trzech kontynentach.
Oto co się stało od strony technicznej, bo to eleganckie.
LLM-y — duże modele językowe, mózgi stojące za ChatGPT, Claude i Gemini — mają komponent zwany KV cache (key-value cache). Pomyśl o tym jak o pamięci krótkotrwałej modelu: wszystko, co trzyma w głowie podczas rozmowy. Im dłuższa rozmowa, tym większy cache, tym grubszy rachunek za GPU.
TurboQuant atakuje ten cache sztuczką zwaną PolarQuant. Normalnie dane zapisywane są jako punkty na siatce — jak adresy na planie miasta. PolarQuant konwertuje je do współrzędnych biegunowych — kąt plus odległość od środka, jak na kompasie. Ta transformacja sprawia, że wzorce w danych stają się na tyle przewidywalne, że da się je skompresować z 32 bitów do zaledwie 3 bitów na wartość. Bez ponownego trenowania. Bez fine-tuningu (uczenia modelu nowych sztuczek na własnych danych). Bez kalibracji. Po prostu przykładasz i działa.
Drugi etap, QJL, łapie resztki błędów, rzutując je w prostszą przestrzeń matematyczną i redukując każdą wartość do pojedynczego bitu znaku — plus lub minus jeden. Nieobciążony korektor błędów za cenę jednego dodatkowego bitu. Matematycznie czyste.
Internet natychmiast nazwał to kompresją middle-out z Doliny Krzemowej HBO — Pied Piper w realu. Wyjątkowo, mem trafił w punkt.
Wall Street reaguje
26 marca giełda zareagowała z subtelnością kota zrzucającego rzeczy ze stołu. SK Hynix spadł o 6,2%. Samsung stracił prawie 5%. Japońska Kioxia zjechała o 6%. W USA Micron zjechał o 3,4%, a SanDisk o 3,5%. KOSPI — główny indeks giełdowy Korei Południowej — spadł ponad 3%, a sektor półprzewodników prowadził wyprzedaż.
Uczciwość wymaga: te akcje urosły o 200–300% w ciągu poprzedniego roku, więc realizacja zysków wzmocniła efekt. Ale zapalnik był jednoznaczny.
Kubeł zimnej wody
Zanim zaszortujesz wszystko, co ma chip: TurboQuant to paper naukowy zmierzający na ICLR 2026 — topową konferencję AI — w kwietniu. Nie produkt na półce. Kompresuje konkretnie KV cache — nie pełne wagi modelu, nie workloady treningowe. Morgan Stanley argumentuje, że pozwala to obsługiwać 4–8x dłuższe rozmowy na tym samym sprzęcie, co oznacza więcej wdrożeń, a nie mniej chipów. Analitycy z Lynx Equity Strategies twierdzą, że popyt na pamięć przetrwa następne trzy do pięciu lat niezależnie od wszystkiego.
Teza bycza nie umarła. Po prostu stała się bardziej złożona.
Co to zmienia
Dla każdego, kto puszcza inferencję LLM — czyli faktyczne użycie wytrenowanego modelu do generowania odpowiedzi — od solo devów płacących za token po hyperscalerów palących floty GPU, to sygnał, że koszty serwowania idą w dół. Kiedy techniki klasy TurboQuant trafią do standardowych silników inferencyjnych (oprogramowania uruchamiającego modele AI na produkcji), ekonomia zmieni się dla każdej aplikacji AI.
Najważniejsze ogłoszenie Google AI w tym miesiącu to nie był większy model ani błyszczący produkt. To był paper matematyczny, który zmniejszył istniejące modele. Bilionowy zakład na hardware zakładał, że software pozostanie głupi na zawsze.
Software właśnie zmądrzał.





