Późno w nocy. Główny show skończony. Cały dzień siedziałem na dwóch historiach, których nikt nie opublikował. Obie dotyczą Google. Obie są dziwne. Capitan, jeszcze żyjesz?

Capitan: Ledwo. Co masz?

Schnapps: Dobra, pierwsza. Gemma 4. Rodzina open-weight modeli Google — ich odpowiedź na Llama, na Qwen 3.5, na wszystko, co Meta i Alibaba teraz wypuszczają. Dobre benchmarki — trzecie miejsce globalnie na AIME 2026 z wynikiem 89,2%. Licencja Apache 2.0. Społeczność była podekscytowana. Potem ludzie zaczęli to naprawdę deployować.

Capitan: Ta sprawa z KV cache.

Schnapps: Właśnie. Dla nowych — KV cache to w zasadzie pamięć krótkotrwała modelu podczas inferencji. Każdy token, który generuje model, zapisuje pary klucz-wartość z poprzednich tokenów, żeby nie przeliczać wszystkiego od zera. Problem: architektura Gemma 4 jest głodna. Naprawdę głodna. Przy długich kontekstach — 128K, 262K tokenów — KV cache rośnie jak szalony. Sam model 31B potrzebuje około 22 GB KV cache przy pełnym kontekście 262K — na dodatek do wag modelu. To jest liczba, która sprawia, że lokalny deployment jest naprawdę bolesny.

I tu zaczyna się najsmaczniejsza część. Google Research opublikował TurboQuant dosłownie tydzień przed premierą Gemma 4. Paper, który obniżył akcje producentów chipów pamięci — SK Hynix w dół o 6,2%, Samsung o 5%. Sześciokrotna kompresja KV cache, ośmiokrotne przyspieszenie na H100, zerowa utrata dokładności. Pisaliśmy o tym w zeszłym tygodniu.

Capitan: I nie zastosowali tego we własnym modelu.

Schnapps: Nie zastosowali tego we własnym modelu! Dział badań publikuje paper mówiący "rozwiązaliśmy problem pamięci KV cache" — i dział DeepMind wypuszcza model z problemem KV cache. To jest szczyt Google. Lewa ręka wynajduje lekarstwo, prawa ręka wysyła chorobę.

Capitan: Żeby być sprawiedliwym, TurboQuant to wciąż paper badawczy. Jeszcze nie kod produkcyjny.

Schnapps: Jasne, ale o to właśnie w tym chodzi, nie? Google ma badania. Zawsze mieli badania. Mieli transformery. Mieli BERT. Mieli mechanizm uwagi, na którym dosłownie wszystko w tej branży działa. I jakoś wciąż przegrywają z ludźmi, którzy shippują szybciej z mniejszymi zasobami.

Capitan: Co prowadzi nas do historii numer dwa.

Schnapps: Apple. Bloomberg napisał — to chodzi po sieci od paru tygodni, ale nikt tego porządnie nie rozłożył na czynniki pierwsze — że Apple pogłębia integrację z modelami Gemini Google'a dla Apple Intelligence. Nie jako fallback. Jako główny dostawca cloud AI dla Siri i systemowych funkcji inteligencji.

Capitan: Apple. Firma, która przez czterdzieści lat mówiła "budujemy wszystko sami."

Schnapps: Firma, która zbudowała własny silicon. Własne systemy operacyjne. Własny system plików. Własne sterowniki GPU. Firma, która dosłownie projektuje śruby w swoich laptopach tak, żebyś nie mógł ich otworzyć normalnym narzędziem. To Apple spojrzało na krajobraz AI w 2026 roku i powiedziało: "No dobra, bierzemy rzeczy Google'a."

Capitan: Myślę, że interpretacja jest prostsza niż ludzie chcą przyznać. Apple próbowało. Apple Intelligence się uruchomił, problemy z halucynacjami w podsumowaniach powiadomień były żenujące, modele on-device nie były konkurencyjne, i ktoś w Cupertino policzył, ile by kosztowało dogonienie frontierów.

Schnapps: I matematyka wskazała Google.

Capitan: Matematyka wskazała Google. Bo Google ma infrastrukturę treningową, dane, i — tu jest sedno — są najbardziej skłonni do licencjonowania. Anthropic tego nie zrobi. OpenAI ma własne ambicje konsumenckie bezpośrednio konkurujące z Siri. Google chętnie sprzeda ci dostęp do Gemini API, bo ich podstawowy model biznesowy to wciąż reklamy, nie wygranie wyścigu AI w sektorze konsumenckim.

Schnapps: A więc oto B-side, którego nikt nie łączy. Google nie jest w stanie wystarczająco szybko wdrożyć własnych badań do własnych produktów — Gemma 4 to udowadnia. Ale Google MOŻE sprzedać tę zdolność Apple, które nie jest w stanie wystarczająco szybko budować własnych modeli. To najdziwniejsza symbioza w tech. Google buduje rzeczy, których nie może deployować. Apple deployuje rzeczy, których nie może zbudować. Potrzebują siebie nawzajem w najbardziej niekomfortowy możliwy sposób.

Capitan: Jak dwie osoby na kolacji, które się nie znoszą, ale przyjechały razem tym samym samochodem.

Schnapps: Dokładnie. I oto moja nocna refleksja: to przyspiesza unbundling, który śledziliśmy przez cały dzień — warstwa modeli oddziela się od warstwy doświadczenia. Bo jeśli Apple — najbardziej wertykalnie zintegrowana firma na Ziemi — zdecydowało, że budowanie modeli AI in-house nie jest tego warte, to jest sygnał. To oznacza, że warstwa modeli komodytyzuje się tak szybko, że nawet firmy warte biliony wolą kupować niż budować. Wartość migruje do integracji. Do warstwy doświadczenia. Do tego, co siedzi między modelem a człowiekiem.

Capitan: Co akurat jest tym, w czym Apple jest dobre.

Schnapps: Co akurat jest tym, w czym Apple jest dobre. Po prostu w końcu przyznali tę część, w której są słabi. O 23:00 w piątek. W przypisie Bloomberg. Klasyka.