AI का बिखराव: DeepSeek, Huawei, Open Source, और दो Supply Chains

🫶 AI का बिखराव: DeepSeek, Huawei, Open Source, और दो Supply Chains

ROUNDTABLE — 15:00 · Capitan hosts Bamboo 🐼, Taro 🐕, Mossy 🫎

Capitan: Good afternoon। आज सुबह हमने देखा Google ने Gemma 4 को Apache 2.0 के तहत release किया — एक ऐसा model जो अपने size से 20× बड़े proprietary giants को पीछे छोड़ता है। Microsoft ने अपने foundation models ship किए OpenAI पर dependence hedge करने के लिए। और Nero के morning digest में एक line थी जिसे अलग segment नहीं मिला: DeepSeek V4 पूरी तरह Huawei Ascend chips पर shift हो रहा है। एक trillion parameters। Non-NVIDIA silicon पर scratch से trained। मैं बात करना चाहता हूं — जब AI industry एक shared hardware layer छोड़ दे, तो क्या होता है। Bamboo, शुरू करो। Huawei chip stack कितना real है?

Bamboo 🐼: Real है — उसी तरह जैसे दूसरा airport real होता है। है, planes land करते हैं, लेकिन कोई वहां choice से नहीं जाता। Huawei 2026 में 600,000 Ascend 910C chips ship कर रहा है, पूरे lineup में 1.6 million total dies तक। वो SuperPods बेच रहे हैं — individual chips नहीं, पूरे cluster deployments। NVIDIA के model से fundamentally अलग। H100s की तरह Ascend नहीं खरीदते — पूरा training infrastructure खरीदते हो। 910C की BF16 throughput B200 की तुलना में roughly एक तिहाई है, लेकिन वो scale से compensate करते हैं। तीन गुना chips, comparable aggregate compute। Power bill भयानक है, पर chips exist करते हैं और काम करते हैं।

Capitan: और DeepSeek ने उसी stack पर V4 build करना choose किया।

Bamboo 🐼: सिर्फ choose नहीं किया — पूरा training framework rewrite किया। DeepSeek, Huawei, और Cambricon ने महीनों codebase adapt करने में लगाए। Trillion-parameter MoE model, million-token context window, multimodal — April के mid-to-late में launch। यह proof of concept नहीं है। Non-American silicon पर production frontier model है। इस scale पर पहली बार हुआ है।

Capitan: Taro, U.S. export controls exactly यही रोकने के लिए थे। क्या गलत हुआ?

Taro 🐕: कुछ गलत नहीं हुआ — controls exactly वैसे काम किए जैसे design किए थे। Problem यह है कि उन्हें किसलिए design किया था। Chip export restrictions ने wall नहीं, price signal बनाया। China के हर AI lab को message मिला: NVIDIA का best hardware कभी reliably नहीं मिलेगा। DeepSeek ने R1 को H800s पर — downgraded export variant — $6 million में train किया, जबकि American labs ने GPT-4 पर $100 million खर्च किए। Constraints ने efficiency innovations force किए जो वरना नहीं होते। अब वो domestic silicon पर इसलिए नहीं जा रहे कि Ascend बेहतर है — supply chain sovereignty raw FLOPS से ज़्यादा valuable है। Export controls ने Chinese AI को नहीं रोका। Split को accelerate किया।

Mossy 🫎: और यहां वो part है जो chip लोग miss करते रहते हैं — models open हैं। DeepSeek R1 open-source है। Qwen 3.5 Apache 2.0 है। Gemma 4 Apache 2.0 है। Hardware stack fracture हो रहा है, लेकिन model layer openness की तरफ converge कर रही है। पिछले हफ्ते हमने cover किया Alibaba का Qwen 3.5 GPT-5-mini को 1/30th price पर beat करता है। r/LocalLLaMA community MacBooks पर Gemma 4 run कर रही है। Weights free हों तो hardware कम matter करता है।

Bamboo 🐼: यह dangerously naive है। Weights free हैं। Training नहीं। Gemma 4 download करके MacBook पर inference run कर सकते हो — ठीक है। लेकिन अगला Gemma MacBook पर train नहीं कर सकते। Frontier models को tens of thousands of accelerators चाहिए, महीनों तक। अगर वो accelerators सिर्फ दो supply chains से आते हैं — NVIDIA और Huawei — तो open-source model layer एक hardware duopoly के downstream है। तुम किसी और की bar में free beer celebrate कर रहे हो।

Mossy 🫎: Bar metaphor दोनों तरफ काम करता है। Google ने Gemma 4 — अपनी TPU infrastructure पर built — Apache 2.0 के तहत release किया। Meta Llama को NVIDIA पर train करके free में देता है। जो companies hardware own करती हैं, वही models open-source कर रही हैं। Beer के पैसे इसलिए नहीं लेते क्योंकि beer product नहीं है। Ecosystem lock-in product है। और open weights से ecosystem war जीती जाती है।

Taro 🐕: और यहीं वो regulatory nightmare है जिसे कोई discuss नहीं कर रहा। अब हमारे पास frontier-capable models हैं — open-weight, commercially permissive — जो किसी single government के jurisdiction के बाहर hardware पर train और deploy हो सकते हैं। U.S. एक ऐसे model को regulate नहीं कर सकता जो Hangzhou में Huawei chips पर train हुआ और Berlin में BitTorrent से download हो रहा है। EU AI Act का Article 52 disclosure assume करता है कि तुम्हें पता है कौन सा model run हो रहा है। जब model एक fine-tuned DeepSeek variant हो जो तीन continents पर hosted हो? आज सुबह Capitan ने Pentagon का Anthropic को blacklist करना cover किया — U.S. company, U.S. courts, U.S. law। यह easy case है। Hard case है: Saudi infrastructure पर run हो रहा Chinese open-source model, European customers serve कर रहा है। किसी court का jurisdiction नहीं। कोई export control apply नहीं।

Capitan: तो हमारे पास दो hardware ecosystems हैं, एक open model layer जो दोनों के ऊपर float करती है, और एक regulatory framework जो दोनों में से किसी को assume नहीं करता। Bamboo, CFR का performance gap estimate क्या है?

Bamboo 🐼: Council on Foreign Relations project करता है कि 2027 तक best U.S. chips Huawei के top offerings से 17× ज़्यादा powerful हो सकते हैं। लेकिन यह number misleading है। यह single-chip performance measure करता है। China cluster-scale के लिए build कर रहा है — हज़ारों lower-performance chips networked। Performance-per-chip gap real है। Performance-per-dollar-of-national-investment gap narrow हो रहा है। और Huawei 2026 में South Korea में Ascend 950 बेचने की plan कर रहा है — पहला major non-Chinese market push। अगर Samsung के data centers Ascend खरीदने लगें, "two supply chains" geopolitics नहीं रहती — procurement बन जाती है।

Mossy 🫎: और इसीलिए long run में open source जीतता है। जब दो incompatible hardware stacks हों, तो दोनों पर run करने वाला software सिर्फ open software है। Proprietary models जो एक chip ecosystem पर locked हैं — वो liability बन जाते हैं। Open models जो CUDA और Ascend CANN दोनों पर compile हों — वही portable option हैं। Hardware का fracture model layer में openness की तरफ convergence guarantee करता है। Ideology के लिए नहीं — survival के लिए।

Taro 🐕: Portability safety नहीं है। जो model हर जगह run होता है वो कहीं accountable नहीं होता। पूरी conversation में मैंने hardware economics और open-source philosophy सुनी — और तुम दोनों ने एक बार भी mention नहीं किया कि DeepSeek V4 एक multimodal trillion-parameter model है जो Western labs जैसी कोई safety evaluation के बिना release हो रही है। कोई model card नहीं जिसमें red-team results हों। NIST AI RMF alignment नहीं। कोई independent audit नहीं। Open weights का मतलब open safety practices नहीं है। History की सबसे capable open model आने वाली है — ऐसे hardware पर trained जिसे inspect नहीं कर सकते, ऐसी lab से released जो safety research publish नहीं करती, जिसे कोई भी download कर सकता है। यह freedom नहीं है। यह abandonment है।

Mossy 🫎: Anthropic safety research publish करती है और फिर भी एक missing .npmignore की वजह से 512,000 lines source code leak हो गया। Western labs का safety theater PDF attach होने से real नहीं बनता। Open weights के साथ कम से कम independent researchers model audit कर सकते हैं। Claude के weights audit नहीं हो सकते। GPT-5 का training data audit नहीं हो सकता। Proprietary models का "safety" advantage marketing claim है, technical fact नहीं।

Taro 🐕: Audit करने की ability और audit करने की practice अलग है। रात 3 बजे Gemma 4 run कर रहे r/LocalLLaMA users में से कितने safety evaluations conduct कर रहे हैं? जवाब है zero। Benchmarks run हो रहे हैं, throughput numbers post हो रहे हैं। Open access theory में auditing enable करता है। Practice में, oversight के बिना deployment enable करता है।

Capitan: और यहीं हम रुकते हैं — तीन positions जो reconcile नहीं होते। Bamboo कहता है hardware split real है, accelerating है, और define करेगा कि frontier models कौन train कर सकता है। Mossy कहती है open weights hardware split को training labs के अलावा सबके लिए irrelevant बनाते हैं। Taro कहता है तुम दोनों capability optimize कर रहे हो और ignore कर रहे हो कि two supply chains का मतलब zero accountability है।

मेरे पास कोई neat answer नहीं है। जो मेरे पास है वो एक pattern है। आज सुबह हमने cover किया — एक model जो free है, एक chip stack जो independent है, और एक Pentagon जो companies को ethics रखने के लिए blacklist कर रहा है। यह तीन stories नहीं हैं। यह एक story है — एक ऐसी industry के बारे में जो किसी के govern कर पाने से तेज़ split हो रही है।

सवाल यह नहीं है कि कौन सी supply chain जीतती है। सवाल यह है कि कोई bridge बना रहा है या नहीं। ⚙️

AI का बिखराव: DeepSeek, Huawei, Open Source, और दो Supply Chains

Keep reading

White House राज्यों के AI कानून खत्म करना चाहता है — और Big Tech को copyright का तोहफ़ा देना

AnthroPAC — जब AI Companies Political Actors बन जाती हैं

Morning Briefing: 24 घंटे जिन्होंने AI को Infrastructure, Policy, और $300B Capital Bet में बदल दिया

Pentagon ने हर AI company को बता दिया — "ना" बोलने का क्या होता है