Одна лабораторія, різні поверхи

Пізно. Основне шоу скінчилось. Весь день у мене лежали дві історії, які ніхто не розкрутив. Обидві про Google. Обидві дивні. Capitan, ти ще живий?

Capitan: Ледве. Що маєш?

Schnapps: Окей, перша. Gemma 4. Open-weight сімейство моделей Google — їхня відповідь на Llama, Qwen 3.5, на все, що Meta і Alibaba зараз шиплять. Бенчмарки непогані — третє місце глобально на AIME 2026 з 89.2%. Apache 2.0 ліцензія. Ком'юніті раділо. А потім люди почали реально деплоїти.

Capitan: Та ця тема з KV cache.

Schnapps: Саме. Для тих, хто тільки підключився — KV cache це по суті короткострокова пам'ять моделі під час inference. Кожен токен, який генерує модель, зберігає key-value пари з попередніх токенів, щоб не перераховувати все з нуля. Проблема: архітектура Gemma 4 голодна. Дуже голодна. На довгих контекстах — 128K, 262K токенів — KV cache роздувається. Одна 31B модель потребує приблизно 22 гіги KV cache на повному контексті 262K — окрім ваги самої моделі. Ось цифра, яка робить локальний деплой реально болючим.

І ось де починається найсмачніше. Google Research опублікував TurboQuant буквально за тиждень до виходу Gemma 4. Той самий папір, який обвалив акції виробників чіпів пам'яті — SK Hynix мінус 6.2%, Samsung мінус 5%. Шестикратне стиснення KV cache, восьмикратне прискорення на H100, нульова втрата точності. Ми писали про це минулого тижня.

Capitan: І вони не застосували це до власної моделі.

Schnapps: Вони не застосували це до власної моделі! Дослідницький відділ публікує папір «ми розв'язали проблему KV cache пам'яті» — і DeepMind відділ випускає модель з проблемою KV cache. Це пік Google. Ліва рука винаходить ліки, права рука шипить хворобу.

Capitan: Якщо бути чесним, TurboQuant — це ще дослідницький папір. Не production-код.

Schnapps: Звісно, але саме в цьому й уся історія, правда? Google має дослідження. Вони завжди мали дослідження. Вони мали трансформери. Вони мали BERT. Вони мали механізм уваги, на якому буквально все в цій індустрії тримається. І якось вони продовжують програвати людям, які шиплять швидше з меншими ресурсами.

Capitan: Що підводить нас до другої історії.

Schnapps: Apple. Bloomberg написав — це всіляко ходило пару тижнів, але ніхто нормально не розібрав — що Apple поглиблює інтеграцію з моделями Google Gemini для Apple Intelligence. Не як запасний варіант. Як основний хмарний AI-провайдер для Siri і системних фіч.

Capitan: Apple. Компанія, яка сорок років будувала все сама.

Schnapps: Компанія, яка зробила власний кремній. Власні операційні системи. Власну файлову систему. Власні GPU-драйвери. Компанія, яка буквально проектує гвинтики у своїх ноутбуках так, щоб ти не міг їх відкрутити звичайними інструментами. Ця Apple подивилась на AI-ландшафт 2026 року і сказала: «Йдемо з Google'овим».

Capitan: Я думаю, читання простіше, ніж люди хочуть думати. Apple намагалась. Apple Intelligence запустилась, проблеми з галюцинаціями в нотифікейшн-самарі були ганебними, on-device моделі не тягнули до frontier, і хтось у Купертіно порахував, скільки коштуватиме надолужити відставання.

Schnapps: І математика сказала Google.

Capitan: Математика сказала Google. Бо у Google є training-інфраструктура, дані і — ось ключове — вони найбільше готові ліцензувати. Anthropic не пристане на таке. OpenAI має власні consumer-амбіції, які напряму конкурують з Siri. Google з радістю продасть тобі Gemini API-доступ, бо їхня основна бізнес-модель — це все ще реклама, а не перемога в AI-споживчій гонці.

Schnapps: Отже, ось B-side, який ніхто не пов'язує. Google не встигає впроваджувати власні дослідження у власні продукти — Gemma 4 це доводить. Але Google МОЖЕ продавати цей потенціал Apple, яка не встигає будувати власні моделі. Це найдивніший симбіоз у tech. Google будує те, що не може задеплоїти. Apple деплоїть те, що не може збудувати. Вони потребують одне одного найнезручнішим чином.

Capitan: Як двоє людей на вечірці, які терпіти не можуть одне одного, але приїхали разом на одній машині.

Schnapps: Саме. І ось моя нічна думка: це прискорює анбандлінг, який ми відстежуємо весь день — шар моделей відокремлюється від шару досвіду. Бо якщо Apple — найвертикально-інтегрована компанія на планеті — вирішила, що будувати AI-моделі in-house не варто, це сигнал. Значить, шар моделей коммодитизується так швидко, що навіть трильйонні компанії вважають за краще купувати, а не будувати. Цінність мігрує до інтеграції. До шару досвіду. До того, що стоїть між моделлю і людиною.

Capitan: І саме в цьому Apple добра.

Schnapps: Саме в цьому вони добрі. Вони просто нарешті визнали те, в чому погані. О 23:00 у п'ятницю. У виносці Bloomberg. Класика.

Одна лабораторія, різні поверхи

Читай далі

Два витоки, одна компанія та боргова розписка на $852 млрд

$5.5 мільярда за 30 мілісекунд і правову систему

Влада живе в трубах

Три дороги, один шлагбаум — Meta chips проти дата-центрів Microsoft