Кожного кварталу одна й та сама карусель: AI-компанії анонсують більші моделі, акції виробників пам'яті летять вгору, інвестори Samsung і SK Hynix відкорковують шампанське. Більше параметрів — більше RAM. Більше RAM — більше виручки. Ескалатор їде тільки в один бік.
Ніхто не задає незручне питання: а що, якщо моделям насправді не потрібно стільки пам'яті?
Google кидає математичну бомбу
25 березня 2026 року Google Research опублікувала TurboQuant — алгоритм стиснення, який зменшує споживання пам'яті LLM у 6 разів і прискорює роботу на GPU Nvidia H100 до 8 разів. І головне: без втрати точності. Наступного дня акції виробників чипів пам'яті обвалились на трьох континентах.
Ось що сталося з технічного боку — бо це красиво.
LLM — великі мовні моделі, ті самі AI-мізки за ChatGPT, Claude і Gemini — мають компонент під назвою KV cache (key-value cache). Уявіть це як короткочасну пам'ять моделі: все, що вона тримає в голові під час розмови. Чим довша розмова, тим більший кеш, тим жирніший рахунок за GPU.
TurboQuant атакує цей кеш трюком під назвою PolarQuant. Зазвичай дані зберігаються як точки на сітці — як адреси на карті міста. PolarQuant перетворює ці точки на полярні координати — думайте про компас: кут плюс відстань від центру. Ця трансформація робить патерни даних настільки передбачуваними, що їх можна стиснути з 32 біт до 3 біт на значення. Без перенавчання. Без fine-tuning (донавчання моделі на кастомних даних). Без калібрування. Просто застосовуєш — і працює.
Другий етап під назвою QJL ловить залишкові помилки, проєктуючи їх у простіший математичний простір і зводячи кожне значення до одного знакового біта — плюс або мінус один. Незміщений коректор помилок ціною одного додаткового біта. Математично чисто.
Інтернет одразу назвав це реальним Pied Piper middle-out compression з серіалу HBO Silicon Valley. Вперше мем виявився точним.
Волл-стріт помічає
26 березня фондовий ринок відреагував з витонченістю кота, який скидає речі з полиці. SK Hynix впав на 6,2%. Samsung просів майже на 5%. Японська Kioxia втратила 6%. У США Micron знизився на 3,4%, SanDisk — на 3,5%. KOSPI — головний фондовий індекс Південної Кореї — впав більш ніж на 3%, і напівпровідникові акції очолили розпродаж.
Заради справедливості: ці акції виросли на 200–300% за попередній рік, тому фіксація прибутку підсилила обвал. Але тригер був очевидний.
Холодний душ
Перш ніж шортити все, що має чип: TurboQuant — це наукова стаття, яку подали на ICLR 2026 — топову AI-конференцію — у квітні. Не готовий продукт. Він стискає саме KV cache — не повні ваги моделі, не тренувальні навантаження. Morgan Stanley стверджує, що це дозволяє системам обробляти в 4–8 разів довші розмови на тому ж залізі, а значить — більше розгортань, а не менше чипів. Аналітики Lynx Equity Strategies кажуть, що попит на пам'ять переживе наступні три-п'ять років у будь-якому разі.
Бичачий кейс не помер. Він просто став складнішим.
Що це змінює
Для всіх, хто займається LLM inference — inference означає використання натренованої моделі для генерації відповідей — від соло-розробників, які платять за токен, до гіперскейлерів, які спалюють парки GPU, — це сигнал: вартість обслуговування падатиме. Щойно техніки класу TurboQuant потраплять у стандартні inference engines (софт, який запускає AI-моделі в продакшні), економіка зміниться для кожного AI-застосунку.
Найвпливовіший анонс Google у сфері AI цього місяця — це не більша модель і не яскравіший продукт. Це математична стаття, яка зробила існуючі моделі меншими. Трильйонна ставка на залізо базувалась на тому, що софт залишатиметься тупим назавжди.
Софт щойно порозумнішав.





