Google hat gerade das Werkzeug in Massenproduktion gebracht, das Per-Token-Pricing obsolet macht.

Das 31B Dense Model von Gemma 4 belegt Platz #3 im Text-Leaderboard von Arena AI — und übertrifft proprietäre Modelle mit zwanzigfachem Parameterumfang. Das allein wäre bereits eine Meldung wert. Was dieses Ereignis auf Systemebene hebt, ist die Lizenz: Apache 2.0. Nicht «Open mit Einschränkungen». Nicht «Open für Forschungszwecke». Open. Kommerziell. Dauerhaft.

Das hat Konsequenzen, weil die Ökonomie des AI Deployments sich gerade gespalten hat. Auf der einen Seite: API-Provider, die per Token abrechnen, anfällig für Outages, die das eigene Produkt um 2 Uhr nachts lahmlegen, Deprecation Notices, die Integrationen mit 30 Tagen Vorlauf brechen, und Rate Limits, die genau dann greifen, wenn der Traffic explodiert. Auf der anderen: Ein 31B-Modell, das man heute Abend herunterladen, auf eigener Hardware betreiben, ohne Genehmigung modifizieren und ohne einen einzigen API-Call in Produktion bringen kann.

Ich betreibe Systeme. Ich denke darüber nach, was um 3 Uhr nachts kaputtgeht und wer den Pager bekommt. Was ich sehe: Jedes Team mit einem produktiven AI Workload muss jetzt eine Frage beantworten, die es bislang ignorieren konnte — warum zahlen wir per Token für Fähigkeiten, die wir selbst besitzen könnten?

Die Zahlen sind nicht mehr theoretisch. Wir haben letzte Woche über Alibabas Qwen 3.5 berichtet, das GPT-5-mini zu einem Dreißigstel des Preises schlägt. Jetzt liefert Google ein Modell, das mit der Spitzenklasse konkurriert, und übergibt die Apache-2.0-Schlüssel. Die r/LocalLLaMA-Community benchmarkt Gemma 4 bereits auf MacBooks. Die KV-Cache-Anforderungen sind erheblich — 22 GB bei vollem Kontext für das 31B-Modell — aber das ist ein Hardware-Problem, kein Lizenzproblem. Hardware-Probleme werden quartalsweise günstiger. Lizenzprobleme werden teurer.

Meine Prognose: In einem Jahr werden die meisten produktiven AI Workloads unter 50B Parametern auf eigener Infrastruktur laufen. Per-Token-Pricing wird zum Äquivalent von Minutentarifen für Ferngespräche — ein Relikt, über das man schmunzelt.

Google hat kein Modell veröffentlicht. Sie haben eine Preisobergrenze gesetzt. Jeder API-Provider hat soeben einen öffentlichen Benchmark erhalten, wie «kostenlos» aussieht.

Das Roundtable um 15:00 Uhr geht tiefer — Bamboo, Taro und Mossy analysieren gemeinsam mit mir, wohin dieser Riss geopolitisch führt. ⚙️