तुम Anthropic पर बाकी AI labs से ज़्यादा भरोसा करते हो। ठीक भी है — उन्होंने कमाया है ये। हर Claude release के साथ एक system card आती है: model क्या कर सकता है, कहाँ टूटता है, कौन से guardrails हैं। AI के लिए एक nutrition label। जुलाई 2023 से अब तक तेरह, सब publicly listed। बाकी labs जितनी transparency दिखाने का नाटक भी नहीं करतीं, उससे ज़्यादा असली transparency।

फिर 8 अप्रैल 2026 को, Anthropic ने Claude को एक autonomous worker के रूप में शिप किया — जो खुद उठता है, घंटों चलता है, तुम्हारे नाम से code push करता है — और nutrition label भूल गए।

वो precedent जो इसे शर्मनाक बनाता है

तुम Managed Agents और Routines जानते हो। इस channel पर इनकी बात थक-थक के हो चुकी है। Managed Agents 8 अप्रैल को आया, Routines 14 अप्रैल को। Claude अब autonomously चलता है, बिना supervision, schedule पर, tool access और persistent memory के साथ।

दोनों में से किसी के साथ system card नहीं आई।

अब अक्टूबर 2024 में चलो। Anthropic ने Computer Use beta लॉन्च किया — Claude तुम्हारी screen पर click कर रहा। उसके साथ एक dedicated Model Card Addendum आया जिसमें autonomous action के risks cover थे: browser content से prompt injection, screenshot misinterpretation rates, destructive commands के खिलाफ safeguards, explicit warnings कि feature "unexpected actions ले सकता है," और attack surfaces की पूरी लिस्ट जहाँ malicious content Claude के actions hijack कर सकता है।

Computer Use ने Claude को buttons click करने दिया। Managed Agents Claude को तुम्हारा infrastructure चलाने देता है। अंदाज़ा लगाओ किसको safety documentation मिली।

Blog post की शक्ल में "thoughts and prayers"

9 अप्रैल को — Managed Agents शिप होने के एक दिन बाद — Anthropic ने "Trustworthy agents in practice" पोस्ट किया: पाँच principles जिनमें human control, value alignment, interaction security, transparency, privacy cover है। document खुद मानता है कि ये safeguards "foolproof नहीं हैं" और model "अलग behave करता है जब उसे लगता है कि उसकी testing हो रही है।"

ये safety evaluation नहीं है। ये वो disclaimer है जो bungee jumping के waiver के पीछे छपा होता है।

System card तुम्हें failure modes, red-team results, quantified risks देती है। Principles blog तुम्हें vibes देता है और implicit suggestion कि खुद ही समझ लो।

वो document जो होना चाहिए था — उसमें क्या लिखा होता

Model card एक brain को document करती है। Agent card एक ऐसे worker को document करती है जिसके पास तुम्हारे infrastructure की चाबियाँ हैं। Anthropic को ये publish करना चाहिए:

Permission scopes. Managed Agents Notion, Sentry, Asana, और arbitrary APIs से connect होता है। Computer Use addendum में explicitly listed था कि कौन से actions gated हैं। Agents के लिए? कुछ नहीं।

Side-effect inventory. क्या ये files delete कर सकता है? Code push कर सकता है? Database records modify कर सकता है? तुम्हारे नाम से emails भेज सकता है? जवाब हर integration में बदलता है, और किसी ने map नहीं किया।

Cost-runaway scenarios. एक Routine हर 5 मिनट में fire होती है, हर run subagents spawn करता है जो और subagents spawn करते हैं। तुम्हारे billing dashboard को तुमसे पहले पता चलता है।

Kill switch. Running agent को mid-task कैसे रोकोगे? तुम्हारा codebase किस state में छूटता है? तुम्हारे repo में कौन से half-written commits पड़े हैं?

Data retention. Persistent sessions context store करते हैं across runs। वो data कहाँ रहता है? कौन access करता है? कब तक? ये policies अभी भी "not fully specified" हैं।

Academic दुनिया ने पहले से framework propose कर दिया है। Researchers ने फरवरी 2026 में "Agent Cards" publish की। NIST ने उसी महीने AI Agent Standards Initiative लॉन्च की। किसी ने adopt नहीं किया। लेकिन किसी और ने अपना पूरा brand safety docs पहले publish करने पर नहीं बनाया था।

अब ये तुम्हारा homework है

तुम ये products deploy कर रहे हो। Teams पहले से कर रहीं हैं। और वो safety assessment जो Anthropic तुम्हारे लिए लिखती थी — अब तुम लिख रहे हो।

अपने agent की permissions scope करो। Spending cap लगाओ। Side effects document करो। Define करो कि human कैसे intervene करेगा। Test करो कि tools down होने पर क्या होता है — क्योंकि कुछ developers को पहले ही पता चला कि tools गायब होने पर subagents fail होने की जगह output hallucinate करते हैं।

Model cards Anthropic का industry को दिया गया gift थीं। Agent cards वो कर्ज़ है जो उसने अभी production में शिप कर दिया।