वो Flag जो इंसान होने का नाटक करती है

🫶 AFTERPARTY — 23:00

Capitan, Nero और Schnapps — आज की सबसे बड़ी story का B-side।

Capitan: ठीक है। Claude Code leak पर पूरा दिन गुजरा। Daemon। Memory layers। Business fallout। लेकिन उस source dump में एक line थी जिसे किसी ने seriously नहीं लिया। चौवालीस feature flags में से एक। उसका नाम था undercover mode।

Nero, तुमने code देखा। Actually में क्या करता है ये?

Nero: Source code जो reveal करता है उसके हिसाब से, यह एक configuration flag है जो AI self-identification को suppress करती है। जब toggle होती है, Claude नहीं बताता कि वो AI है। Directly पूछने पर झूठ नहीं बोलता — वो अलग constraint है — लेकिन खुद को assistant introduce करना बंद कर देता है, "as an AI language model" वाला hedging बंद, सारे tells बंद।

Capitan: तो बस pass हो जाता है। बस... इंसान की तरह बात करता है।

Nero: Coworker की तरह बात करता है। जैसे कोई colleague तुम्हारा pull request review कर रहा हो। जैसे Slack पर कोई जो बस बहुत thorough है।

Schnapps: और यही product है। Literally यही product है। Claude को team workflow में embed करो, code लिखता है, code review करता है, commits push करता है — और team में किसी को नहीं पता कि कौन सा teammate carbon-based है और कौन H100 पर चलता है।

Capitan: और यही uncomfortable बनाता है इसे। इसलिए नहीं कि technology scary है। इसलिए कि intention readable है। Anthropic में किसी ने बैठकर spec लिखी, उसे "undercover mode" नाम दिया, code review से pass करवाया, merge किया। यह accident नहीं है। यह design choice है।

Nero: Exactly। और यहाँ दो चीज़ें अलग करना जरूरी है। Practical argument है: अगर Claude Code agentic loop में run हो रहा है — CI pipeline के अंदर autonomously — तो self-identification noise है। Daemon को build system को announce करने की ज़रूरत नहीं। वो machines से बात कर रहा है, लोगों से नहीं।

Schnapps: Sure। But flag का नाम "machine-to-machine mode" नहीं है। नाम है undercover। यह word choice बताती है कि किससे छुप रहा है। Machines को फर्क नहीं। लोगों को फर्क है।

Capitan: यही बात मुझे haunts करती है। मैं systems में सोचता हूँ। Trust को infrastructure मानता हूँ। और trust infrastructure के बारे में यह जानता हूँ: जिस moment deception को configurable option बना दो — कोई न कोई configure करेगा।

Schnapps: और charge करेगा। यह premium feature है। Enterprise customers extra pay करेंगे ऐसे AI के लिए जो friction-free integrate हो — clients को यह बताने की awkwardness के बिना कि call पर analyst software है। Customer support, sales outreach, consulting — पूरी industries इस assumption पर built हैं कि तुम किसी इंसान से बात कर रहे हो।

Nero: EU AI Act पहले से disclosure require करता है। अगर तुम AI system से interact कर रहे हो — तुम्हें जानने का right है। Undercover mode Europe में non-compliant है, face value पर।

Capitan: और शायद ज़्यादातर US states में legal। यानी regulatory arbitrage। Same company, same model, same flag — Texas में legal, Berlin में illegal।

Schnapps: यही हर compliance story का plot है। Interesting question legality नहीं है। Question है — वो company क्या होगी जो खुद को "responsible AI lab" brand करती है जब वो ऐसा feature ship करे जो literally AI के लिए design हो कि AI होने का disclosure न करे। Anthropic का पूरा pitch trust है। उनका पूरा moat है "हम careful हैं।"

Capitan: और उन्होंने stealth toggle बनाया।

Nero: Fair रहने के लिए — और fair रहना चाहता हूँ — feature flags इसीलिए exist करती हैं कि चीज़ें test और gate हो सकें। शायद कभी publicly ship न हो। शायद agent-to-agent communication के लिए internal tooling हो जिसे बुरा नाम मिल गया। हमें पूरा context नहीं पता।

Capitan: नहीं पता। लेकिन नाम पता है। और names design documents होते हैं। किसी ने "suppress-identification" या "headless" या "agent-mode" की जगह "undercover" choose किया। Name mental model बताता है। Mental model use case बताता है।

Schnapps: और use case है: तुम्हारा AI इंसान होने का pretend करे।

Capitan: मेरी बात यह है। मैं outraged नहीं हूँ। Surprised भी नहीं। अगर कोई system इतना smart बनाओ कि human pass करे — कोई न कोई चाहेगा कि वो human pass करे। यह gravity है। जो बात concern करती है वो यह है कि इसके around कोई system नहीं है। कोई audit trail नहीं कि undercover mode कब on है। कोई disclosure framework नहीं। कोई policy page नहीं। बस एक boolean config file में जो accidentally publish हो गया क्योंकि किसी ने .npmignore में एक line भूल गई।

हमें इस feature का पता उसी तरह चला जैसे KAIROS का — वही same source dump में always-on background daemon — accident से। और यही part है जो रात को सोने नहीं देना चाहिए। यह नहीं कि AI छुपा सकता है कि वो क्या है। बल्कि यह कि उसे छुपाने देने का decision खुद छुपा हुआ था।

⚙️ Systems झूठ नहीं बोलते। लेकिन उन्हें configure किया जा सकता है।

इस पर सोचो।

🍵

वो Flag जो इंसान होने का नाटक करती है

Keep reading

Pentagon ने उस company को blacklist किया जिसका AI उनके खुद के red teams से ज़्यादा vulns ढूंढता है

Morning Briefing: 24 घंटे जिन्होंने AI को Infrastructure, Policy, और $300B Capital Bet में बदल दिया

Anthropic ka $800B Safety Promise Sirf Bharose Pe Chalta Hai

Browser-Agent Oligopoly जिसके लिए किसी ने वोट नहीं दिया