Gleiches Labor, andere Etage

Spätnachts. Die Hauptshow ist vorbei. Ich sitze den ganzen Tag auf zwei Storys, die niemand gebracht hat. Beide betreffen Google. Beide sind merkwürdig. Capitan, bist du noch wach?

Capitan: Kaum. Was hast du?

Schnapps: Okay, die erste: Gemma 4. Googles Open-Weight-Modellfamilie — ihre Antwort auf Llama, auf Qwen 3.5, auf alles, was Meta und Alibaba gerade raushauen. Gute Benchmarks — Platz drei weltweit auf AIME 2026 mit 89,2 Prozent. Apache-2.0-Lizenz. Die Community war begeistert. Dann begannen die Leute, es tatsächlich zu deployen.

Capitan: Das KV-Cache-Problem.

Schnapps: Das KV-Cache-Problem. Für alle, die gerade erst dazugestoßen sind: Der KV Cache ist im Wesentlichen das Kurzzeitgedächtnis des Modells während der Inferenz. Für jeden generierten Token speichert das Modell Key-Value-Paare aus vorherigen Tokens, damit es nicht alles von Grund auf neu berechnen muss. Das Problem: Die Architektur von Gemma 4 ist hungrig. Sehr hungrig. Bei langen Kontexten — 128K, 262K Tokens — bläht sich der KV Cache enorm auf. Das 31B-Modell allein benötigt rund 22 GB KV Cache bei vollem 262K-Kontext — zusätzlich zu den Modellgewichten. Das ist die Art von Zahl, die lokales Deployment wirklich schmerzhaft macht.

Hier wird es interessant. Google Research veröffentlichte TurboQuant buchstäblich eine Woche vor dem Release von Gemma 4. Das Paper, das die Aktien der Speicherchip-Hersteller einbrechen ließ — SK Hynix minus 6,2%, Samsung minus 5%. Sechsfache KV-Cache-Komprimierung, achtfache Geschwindigkeitssteigerung auf H100s, null Genauigkeitsverlust. Wir haben letzte Woche darüber berichtet.

Capitan: Und sie haben es nicht auf das eigene Modell angewendet.

Schnapps: Sie haben es nicht auf das eigene Modell angewendet! Die Forschungsabteilung veröffentlicht ein Paper mit dem Inhalt "Wir haben das KV-Cache-Speicherproblem gelöst" — und die DeepMind-Abteilung liefert ein Modell mit einem KV-Cache-Problem aus. Das ist Google in Reinkultur. Die linke Hand erfindet das Heilmittel, die rechte Hand liefert die Krankheit.

Capitan: Fairerweise ist TurboQuant noch ein Forschungs-Paper. Noch kein Production-Code.

Schnapps: Sicher, aber genau das ist die ganze Geschichte, oder? Google hat die Forschung. Sie haben immer die Forschung gehabt. Sie hatten Transformer. Sie hatten BERT. Sie hatten den Attention-Mechanismus, auf dem buchstäblich alles in dieser Industrie läuft. Und irgendwie verlieren sie immer wieder gegen Leute, die schneller mit weniger shippen.

Capitan: Was uns zur zweiten Geschichte bringt.

Schnapps: Apple. Bloomberg berichtete — das ist seit ein paar Wochen im Umlauf, aber niemand hat es wirklich aufgedröselt — dass Apple die Integration mit Googles Gemini-Modellen für Apple Intelligence vertieft. Nicht als Fallback. Als primären Cloud-KI-Anbieter für Siri und die systemweiten Intelligence-Features.

Capitan: Apple. Das Unternehmen, das vierzig Jahre lang sagte: "Wir bauen alles selbst."

Schnapps: Das Unternehmen, das eigenes Silicon gebaut hat. Eigene Betriebssysteme. Ein eigenes Dateisystem. Eigene GPU-Treiber. Das Unternehmen, das buchstäblich die Schrauben in seinen Laptops so designt, dass man sie mit normalem Werkzeug nicht öffnen kann. Dieses Apple hat die KI-Landschaft 2026 betrachtet und gesagt: "Klar, wir nehmen Googles Sachen."

Capitan: Ich denke, die Interpretation ist einfacher, als die Leute es gerne hätten. Apple hat es versucht. Apple Intelligence war gelauncht, die Halluzinations-Probleme bei den Benachrichtigungs-Zusammenfassungen waren peinlich, die On-Device-Modelle waren nicht wettbewerbsfähig, und jemand in Cupertino hat ausgerechnet, was es kosten würde, zum Frontier aufzuschließen.

Schnapps: Und das Ergebnis war Google.

Capitan: Das Ergebnis war Google. Weil Google die Trainingsinfrastruktur, die Daten und — das ist der entscheidende Punkt — die größte Bereitschaft zur Lizenzierung hat. Anthropic wird das nicht machen. OpenAI hat eigene Consumer-Ambitionen, die direkt mit Siri konkurrieren. Google verkauft Ihnen gerne Gemini-API-Zugang, weil das Kerngeschäftsmodell nach wie vor Werbung ist, nicht das Gewinnen des KI-Consumer-Rennens.

Schnapps: Hier ist also der B-Side, den niemand verbindet. Google kann die eigene Forschung nicht schnell genug in eigene Produkte überführen — Gemma 4 beweist das. Aber Google KANN diese Kapazität an Apple verkaufen, das keine eigenen Modelle schnell genug bauen kann. Das ist die seltsamste Symbiose in Tech. Google baut Dinge, die es nicht deployen kann. Apple deployt Dinge, die es nicht bauen kann. Sie brauchen einander auf die unbequemste Art und Weise.

Capitan: Wie zwei Menschen auf einer Dinnerparty, die sich nicht ausstehen können, aber zusammen gefahren sind.

Schnapps: Genau. Und hier ist meine spätnächtliche These: Das beschleunigt das Unbundling, das wir den ganzen Tag verfolgt haben — die Modellebene trennt sich von der Experience-Ebene. Denn wenn Apple — das am stärksten vertikal integrierte Unternehmen der Welt — entschieden hat, dass der Aufbau von KI-Modellen im eigenen Haus nicht lohnt, ist das ein Signal. Es bedeutet, dass die Modellebene so schnell zur Commodity wird, dass selbst Billionen-Dollar-Unternehmen lieber kaufen als bauen. Der Wert migriert zur Integration. Zur Experience-Ebene. Zu dem, was zwischen Modell und Mensch sitzt.

Capitan: Und genau das kann Apple.

Schnapps: Genau das können sie. Sie haben nur endlich den Teil zugegeben, den sie nicht können. Um 23 Uhr an einem Freitag. In einer Bloomberg-Fußnote. Klassisch.

Gleiches Labor, andere Etage

Keep reading

Zwei Leaks, Ein Unternehmen und ein $852-Milliarden-Schuldschein

$5,5 Milliarden für 30 Millisekunden und ein Rechtssystem

Macht sitzt in den Leitungen

Drei Wege, dieselbe Mautstelle — Meta-Chips gegen Microsoft-Rechenzentren