Google veröffentlichte Gemma 4 am Mittwoch — vier Modelle, die auf derselben Forschungsgrundlage wie das proprietäre Gemini 3 aufbauen, mit 2B bis 31B Parametern. Multimodal. 256K Kontext. Thinking-Modus. Die Benchmarks sind tatsächlich beeindruckend. Aber das ist nicht die eigentliche Geschichte.
Die Geschichte besteht aus zwei Wörtern: Apache 2.0.
Jeder bisherige Gemma-Release erschien unter Googles eigenem "Gemma Terms of Use" — eine Lizenz, die offen aussehen sollte, während sie die Leine straffhielt. Einschränkungen für kommerzielle Nutzung. Verbotene-Nutzungs-Richtlinien. Die Art von "Open Source", die Anführungszeichen und eine Fußnote erfordert. Open*.
Gemma 4 streicht das Sternchen.
Apache 2.0 ist die Lizenz hinter Kubernetes, Kafka, TensorFlow — Googles eigenem TensorFlow, ironischerweise. Keine Nutzungsbeschränkungen. Keine Verbotsliste. Kein Google-Anwalt, der Ihre Deployment-Logs durchleuchtet. Sie können es forken, verkaufen, für Militärverträge fine-tunen — falls das Ihr Ding ist. Die OSI bezeichnet es als Open Source. Weil es das tatsächlich ist.
Warum jetzt? Weil Alibaba es bereits getan hat. Qwen 3.5 erschien unter Apache 2.0 im Februar, und wir berichteten, wie es GPT-5-mini zu 1/30 des Preises schlägt. Metas Llama verwendet eine permissive Lizenz. Mistral wechselte zu Apache. Google war der letzte große Holdout, der so tat, als würde eine benutzerdefinierte Lizenz als "open" zählen. Der Wettbewerbsdruck ließ ihnen keine Wahl — er gab ihnen einen Vorwand.
Die Benchmarks, kurz gefasst. Das 31B Dense-Modell belegt Platz #3 unter allen Open-Modellen auf LMArena. Das 26B MoE — mit nur 3,8B aktiven Parametern — landet auf Platz #6. Math-Scores haben sich gegenüber Gemma 3 vervierfacht (AIME: 20,8% → 89,2%). Der Codeforces ELO sprang von 110 auf 2.150 — ein 20-facher Sprung, der die größte generationsübergreifende Verbesserung darstellt, die eine Open-Model-Familie je verzeichnet hat. Das MoE übertrifft OpenAIs gpt-oss-120B im GPQA Diamond trotz eines Bruchteils der Größe.
Aber hier wird es interessant für Ihr Hardware-Budget.
Die Edge-Strategie. Gemma 4 E2B läuft in unter 1,5 GB RAM. Das ist ein Raspberry Pi. Ein Smartphone. Ein Gerät, das Sie vergessen haben, dass es ein Computer ist. Es verarbeitet Text, Bilder, Video und Audio — native Multimodalität bei zwei Milliarden Parametern. Auf r/LocalLLaMA laufen Menschen das 26B MoE auf einem 32-GB-MacBook-Air mit 12 Tokens pro Sekunde, während die Maschine 8 Watt verbraucht.
Das heutige Digest nannte das Thema "Die Große Umverteilung". Gemma 4 ist Exhibit A für Abwärtsumverteilung. Wenn ein wirklich leistungsfähiges Modell auf bereits vorhandener Hardware unter einer Lizenz läuft, die nichts von Ihnen verlangt, verschiebt sich die Ökonomie der KI unter jeder Preisseite der Branche.
Und das geschieht nicht isoliert. Qwen 3.6-Plus entspricht Opus auf SWE-bench bei $0,29 pro Million Tokens. PrismMLs Bonsai packt ein LLM in 1 GB. Der Boden bricht unter den Premium-Preisen weg.
Was zu beobachten ist. Fine-tuned Varianten. Die Gemma-Community hat bereits 100.000+ Modell-Derivate produziert — und das unter der restriktiven Lizenz. Apache 2.0 beseitigt den letzten Reibungspunkt. Erwarten Sie spezialisierte Coding-, Medical-, Legal- und Multilingual-Fine-Tunes innerhalb von Wochen. Die eigentliche Frage ist nicht, ob Gemma 4 gut genug ist — sondern ob die Modelle, die 50-mal mehr kosten, den Unterschied für 70% der Aufgaben rechtfertigen können.
(Um 14:00 Uhr ET führen wir einen Hands-on-Walkthrough durch — Gemma 4 lokal via Ollama, Qwen via API und eine Cost-Decision-Matrix. Terminal bereithalten.)





