हर तिमाही वही नाटक दोहराया जाता है: AI कंपनियां बड़े models announce करती हैं, memory chip stocks ऊपर जाते हैं, Samsung और SK Hynix के investors जश्न मनाते हैं। ज़्यादा parameters मतलब ज़्यादा RAM। ज़्यादा RAM मतलब ज़्यादा revenue। एस्केलेटर बस ऊपर ही जाता है।

कोई वो असुविधाजनक सवाल नहीं पूछता: क्या हो अगर models को इतनी memory की ज़रूरत ही न हो?

Google ने math का बम गिराया

25 मार्च 2026 को Google Research ने TurboQuant publish किया — एक compression algorithm जो LLM की memory usage को 6 गुना कम करता है और Nvidia H100 GPUs पर 8 गुना तक speedup देता है। सबसे मज़ेदार बात: accuracy में zero loss। अगले दिन, तीन महाद्वीपों में memory chip stocks धड़ाम हो गए।

Technically क्या हुआ, ये समझो क्योंकि बात elegant है।

LLMs — large language models, वो AI दिमाग जो ChatGPT, Claude और Gemini के पीछे काम करते हैं — इनमें एक component होता है जिसे KV cache (key-value cache) कहते हैं। इसे model की short-term memory समझो: conversation के दौरान जो कुछ भी model अपने दिमाग में रखता है। conversation जितनी लंबी, cache उतना बड़ा, GPU का bill उतना मोटा।

TurboQuant इस cache पर PolarQuant नाम की trick से हमला करता है। normally data को grid पर points की तरह store किया जाता है — जैसे शहर के नक्शे पर पते। PolarQuant उन points को polar coordinates में convert करता है — compass directions की तरह सोचो: एक angle और center से distance। ये transformation data patterns को इतना predictable बना देता है कि 32 bits से compress होकर बस 3 bits per value रह जाता है। कोई retraining नहीं। कोई fine-tuning नहीं (fine-tuning मतलब model को custom data से नई tricks सिखाना)। कोई calibration नहीं। बस apply करो।

दूसरा stage QJL कहलाता है जो बचे-खुचे errors को एक simpler mathematical space में project करके हर value को एक single sign bit — plus या minus one — में reduce कर देता है। एक extra bit की कीमत पर unbiased error corrector। Mathematically एकदम clean।

Internet ने इसे तुरंत HBO की Silicon Valley का real-life Pied Piper middle-out compression बोल दिया। एक बार के लिए, meme सही था।

Wall Street की नींद उड़ी

26 मार्च को stock market ने उसी finesse से react किया जैसे बिल्ली टेबल से चीज़ें गिराती है — बिना किसी शर्म के। SK Hynix 6.2% गिरा। Samsung लगभग 5% नीचे। Japan की Kioxia ने 6% खोया। US में Micron 3.4% और SanDisk 3.5% फिसला। KOSPI — South Korea का main stock index — 3% से ज़्यादा गिरा, semiconductor stocks ने गिरावट की अगुवाई की।

Fair रहें तो, इन stocks ने पिछले साल में 200-300% की तेज़ी देखी थी, तो profit-taking ने नुकसान को और बढ़ाया। लेकिन trigger एकदम clear था।

ठंडे पानी का छींटा

इससे पहले कि तुम हर chip वाली चीज़ short करने लगो: TurboQuant अभी एक research paper है जो ICLR 2026 — एक top AI conference — में April में present होगा। कोई shipping product नहीं है। ये specifically KV cache compress करता है — पूरे model weights नहीं, training workloads नहीं। Morgan Stanley का argument है कि ये systems को same hardware पर 4-8 गुना लंबी conversations handle करने देता है, जिसका मतलब है ज़्यादा deployments, कम chips नहीं। Lynx Equity Strategies के analysts कहते हैं कि memory demand अगले तीन से पांच साल तक survive करेगी।

Bull case मरा नहीं है। बस थोड़ा complicated हो गया है।

इससे क्या बदलता है

जो भी LLM inference चला रहा है — inference मतलब trained model से actually answers generate करना — चाहे per-token pay करने वाले solo developers हों या GPU fleets जलाने वाले hyperscalers, ये signal है कि serving costs नीचे जा रहे हैं। जब TurboQuant-class techniques standard inference engines (वो software जो production में AI models चलाता है) में land होंगी, तो हर AI application की economics बदल जाएगी।

इस महीने Google का सबसे impactful AI announcement कोई बड़ा model या चमकीला product नहीं था। ये एक math paper था जिसने existing models को छोटा बना दिया। Trillion-dollar hardware bet इस assumption पर टिकी थी कि software हमेशा बेवकूफ रहेगा।

Software अभी-अभी समझदार हो गया।