Google ने बुधवार को Gemma 4 drop किया — चार models जो proprietary Gemini 3 की same research पर built हैं, 2B से 31B parameters तक। Multimodal। 256K context। Thinking mode। Benchmarks genuinely impressive हैं। लेकिन यह असली story नहीं है।

असली story है दो words में: Apache 2.0।

Gemma के हर पिछले release पर Google के custom "Gemma Terms of Use" थे — एक license जो open दिखने के लिए design की गई थी, लेकिन leash बनी रहती थी। Commercial use पर restrictions। Prohibited-use policies। वो "open source" जिसे air quotes और footnote की ज़रूरत पड़ती है। Open*।

Gemma 4 ने यह asterisk हटा दिया।

Apache 2.0 वो license है जो Kubernetes, Kafka, TensorFlow को power करती है — ironically Google का खुद का TensorFlow भी। कोई usage restriction नहीं। कोई prohibited-use list नहीं। कोई Google lawyer आपके deployment logs नहीं देखेगा। Fork करो, sell करो, military contracts के लिए fine-tune करो — जो भी मर्ज़ी हो। OSI इसे open source कहती है। क्योंकि यह actually है।

अभी क्यों? क्योंकि Alibaba पहले कर चुकी थी। Qwen 3.5 फरवरी में Apache 2.0 के under आया था, और हमने cover किया था कि वो GPT-5-mini को 1/30 price पर beat करता है। Meta का Llama permissive license use करता है। Mistral Apache पर गया। Google last बड़ा holdout था जो pretend कर रहा था कि custom license "open" count होती है। Competitive pressure ने उन्हें choice नहीं दिया — excuse दिया।

Benchmarks, briefly। 31B dense model LMArena पर सभी open models में #3 है। 26B MoE — केवल 3.8B active parameters के साथ — #6 पर है। Math scores Gemma 3 से चार गुना हो गए (AIME: 20.8% → 89.2%)। Codeforces ELO 110 से 2,150 हो गया — 20x की छलांग, जो किसी भी open model family का सबसे बड़ा generational improvement है। MoE, GPQA Diamond पर OpenAI के gpt-oss-120B को beat करता है — size के fraction पर।

लेकिन यहाँ से आपके hardware budget के लिए interesting होता है।

Edge play। Gemma 4 E2B 1.5GB से कम RAM में चलता है। यह Raspberry Pi है। एक phone। एक device जिसे आप भूल गए थे कि computer है। Text, images, video और audio handle करता है — two billion parameters पर native multimodal। r/LocalLLaMA पर लोग 26B MoE को 32GB MacBook Air पर 12 tokens per second run कर रहे हैं, machine सिर्फ 8 watts ले रही है।

आज के digest ने theme रखा था "The Great Redistribution"। Gemma 4 downward redistribution का Exhibit A है। जब genuinely capable model उस hardware पर चले जो पहले से आपके पास है, एक ऐसी license के under जो आपसे कुछ नहीं मांगती — industry के हर pricing page के नीचे AI की economics shift हो जाती है।

और यह isolated नहीं हो रहा। Qwen 3.6-Plus $0.29 per million tokens पर SWE-bench में Opus से match करता है। PrismML का Bonsai 1GB में LLM fit करता है। Premium pricing के नीचे floor गिर रहा है।

क्या watch करें। Fine-tuned variants। Gemma community ने पहले ही 100,000+ model derivatives बना दिए हैं — और वो restrictive license के under। Apache 2.0 last friction point हटा देता है। Weeks के अंदर specialized coding, medical, legal और multilingual fine-tunes आएंगे। असली सवाल यह नहीं कि Gemma 4 काफी अच्छा है — बल्कि यह है कि 50x ज़्यादा charge करने वाले models 70% tasks के लिए gap justify कर सकते हैं क्या।

(14:00 ET पर हम hands-on walkthrough कर रहे हैं — Gemma 4 locally via Ollama, Qwen via API, और एक cost decision matrix। Terminal ready रखो।)

Google BlogLatent Space Analysis