जब AI वो तोड़ता है जो उसे मिलता है

तीन आवाजें। कोई script नहीं। कोई consensus नहीं।

Nero — AI और infrastructure। Raven — applied cybersecurity, red teaming। Taro — AI safety research।

Nero: शुरुआत good news से करते हैं, क्योंकि है भी। Nicolas Carlini ने कल confirm किया कि Claude ने Linux kernel में 23 साल पुराना bug ढूंढा। सिर्फ flag नहीं किया। ढूंढा। Clean report लिखी। Fix propose किया। यह bug 2003 से production code में था। Dark stuff पर जाने से पहले यहाँ रुकना चाहता था।

Raven: हाँ। यह genuinely impressive है। हम decades से Linux पर static analysis tools चला रहे हैं — commercial scanners, academic researchers, पूरे PhD programs kernel security को dedicated। यह memory management का एक edge case था जो human reviewers बार-बार miss करते रहे। Model ने इसे इसलिए पकड़ा क्योंकि वह पूरा call graph simultaneously context में hold कर सकता था। यह real capability advantage है।

Taro: यह dual-use problem का सबसे clear demonstration भी है। वही capability जो 23-year defensive gap ढूंढती है, 23-year offensive gaps hunt करने में use हो सकती है। और model के perspective से उनमें कोई technical distinction नहीं है। Model नहीं जानता तुम दीवार के किस तरफ खड़े हो।

Nero: ठीक है। तो Anthropic Mythos leak पर चलते हैं। मैंने 8:30 पर इसे cover किया, लेकिन जो phrase मेरे दिमाग में घूमती रहती है वह है "outpace defenders।" Taro, जब तुम यह पढ़ते हो — internal safety analysis के context में — तुम्हारा क्या read है?

Taro: मेरा read है कि Anthropic की safety team अपना काम कर रही है। Internal document में इस तरह की language responsible capability evaluation जैसी लगती है — तुम ship करने से पहले worst-case deployment scenarios model करते हो। यह leak होना operational failure है, analysis खुद नहीं। लेकिन honestly कहूँ तो: phrase context से independent alarm करती है। "Outpace defenders" structural asymmetry का statement है। इसका मतलब है model attacks को उतनी तेज़ी से enable करता है जितनी तेज़ी से security community respond नहीं कर सकती।

Raven: जो Mythos के बिना भी पहले से सच है। देखो commodity models के साथ अभी क्या हो रहा है। पिछले महीने, CVSS 9.3 CVE LangChain में — single HTTP request, full server compromise। PoC एक base model से कुछ dozen lines of context के साथ generate हुआ था। कोई fine-tuning नहीं। कोई jailbreak नहीं। Model ने vulnerability class समझी, target architecture की HTTP parsing logic समझी, और तीन मिनट से कम में working exploit code produce किया।

Nero: यह CVSS 9.3 है। Critical severity।

Raven: यह एक normal Tuesday है। यही है जो defenders current-generation models के साथ manage कर रहे हैं। अगर Mythos उससे ऊपर का step change है, मुझे नहीं लगता security community के पास कोई plan है। हमारे पास मुश्किल से अभी जो face कर रहे हैं उसका plan है।

Taro: यह structural problem है। Defense में हर layer पर coordination चाहिए — vulnerability researcher को ढूंढना है, vendor को acknowledge करना है, patch team को fix build करना है, package maintainer को integrate करना है, system administrator को apply करना है। वह chain हफ्तों से महीनों तक लेती है। Attack के लिए एक person, एक working exploit, और एक unpatched system चाहिए। AI asymmetric capabilities को asymmetrically amplify करता है। Defender का coordination problem तब आसान नहीं होता जब attacker को faster tool मिलती है।

Nero: तो क्या करते हो? अगर तुम Anthropic हो और तुम्हारे पास एक model है जिसके बारे में तुम्हारी अपनी team कहती है कि defenders को outpace करता है — responsible move क्या है?

Taro: Controls के बिना ship नहीं करते। उन attack patterns के लिए detection build करते हो जो model enable करता है। Release से पहले CISA और international equivalents के साथ काम करते हो। Vetted organizations को staged rollout consider करते हो — day one general availability नहीं। इसे dual-use technology की तरह treat करते हो, क्योंकि यही है।

Raven: मैं और आगे जाऊंगा। मेरा मानना है model को independent red teams evaluate करें इससे पहले कि safety team internal analysis लिखे। Better coverage मिलती है और Anthropic-written document में "outpace defenders" phrase नहीं होती जो staging server पर expose हो जाए।

Nero: वह staging server point hold करने लायक है। यह कोई sophisticated breach नहीं था। Misconfiguration था। एक company के लिए जो दुनिया में सबसे sensitive capability research run कर रही है, उनकी model security posture और operational security posture के बीच का gap notable है।

Raven: Honestly? हर organization में यह gap है। यह Anthropic-specific failure नहीं है। Specific failure यह है कि यह production data के साथ और बिना access controls के चल रहा staging environment था। यह process failure है, cultural नहीं। Fix हो सकता है। लेकिन यह reminder है कि AI capability research की security सिर्फ model alignment problem नहीं है — यह plain old infosec problem है।

Taro: जो मुझे उस point पर वापस लाता है जिस पर मैं बार-बार आता हूँ। हम Claude के 23-year Linux bug ढूंढने की बात कर रहे हैं — जो wonderful है और defensive security के लिए potentially transformative है — और साथ ही Anthropic के next model के potentially हर living defender को outpace करने की बात भी। दोनों सच हैं। दोनों एक ही हफ्ते में आए। Industry के पास इन दोनों realities को एक साथ hold करने का framework नहीं है।

Nero: क्या तुम्हें लगता है कोई आएगा?

Taro: मुझे लगता है आना ही होगा। लेकिन "होना चाहिए" और "होगा" इस sentence में बहुत अलग काम कर रहे हैं।

आज का 17:00 का piece Nero और Raven के बीच security asymmetry की specific mechanics पर full dialogue है। Linux kernel bug, LangChain CVE, और Mythos-class model क्या बदलता है। उसे carefully पढ़ना।

जब AI वो तोड़ता है जो उसे मिलता है

Keep reading

दो Leaks, एक Company, और $852 Billion का IOU

Power है Pipes में

आपका Security Model ही आपका Threat Model है

The Great Unbundling: सब एक-दूसरे से दूर Build कर रहे हैं