11 मार्च, 2026 को Amazon के Kiro AI agent ने खुद ही AWS production environment delete करके recreate कर दिया। तेरह घंटे का downtime। लगभग 6.3 million orders का नुकसान। Particula की post-mortem ने वो distinction पकड़ा जो actually matter करता है: "Permissions बताती हैं 'क्या agent ये कर सकता है?' ये नहीं बतातीं 'क्या agent को ये करना चाहिए?' — और production safety के लिए असली सवाल यही है।"

वो "चाहिए" वाला सवाल — उसके लिए कोई build नहीं कर रहा।

तुम्हारी team का invisible operating system

तुम्हारी team में अनलिखे rules हैं। Friday को deploy नहीं करना। Outage के दौरान bots mute रखना। Sprint-planning freeze में किसी चीज़ को हाथ मत लगाना। किसी ने ये rules लिखे नहीं क्योंकि team का हर इंसान बस जानता है। ये वो operational instinct है जो एक-दो बार रात 3 बजे page आने के बाद develop होता है।

तुम्हारे नए AI agents को इसमें से कुछ नहीं पता। वो schedule पर fire होते हैं, code push करते हैं, tickets बनाते हैं, updates post करते हैं — चाहे चारों तरफ कुछ भी जल रहा हो।

"पर हमारे पास तो पहले से automation है"

हाँ। और उसे restraint सिखाने में एक दशक की ठोकरें लगीं।

PagerDuty को दस साल और रात 3 बजे की अनगिनत post-mortems लगीं ये सीखने में कि शायद staging server टूटने का page मत भेजो जब prod में आग लगी हो। CI/CD pipelines (automated build-test-deploy chains) को एक पूरी generation की botched releases लगीं ये discover करने में कि "change freeze respect करो" कोई suggestion नहीं — survival है। Slack bots maintenance windows में mute होते हैं क्योंकि किसी बदकिस्मत इंसान को P0 के दौरान 400 notifications मिले और अगली सुबह उसने resign कर दिया।

हर mature ops tool में hard-won judgment encoded है situational awareness की form में। 8 से 15 अप्रैल, 2026 के बीच ship हुए agent platforms ने पूरे दशक को skip कर दिया और बोले "चल जाएगा।"

वो launches जो तुमने पहले ही देखे हैं

पूरा recap नहीं दूँगा — coverage तो तुमने देखी है। Anthropic ने Managed Agents ship किए (8 अप्रैल) और Claude Code Routines (14 अप्रैल)। OpenAI ने अपना Agents SDK update किया (15 अप्रैल)। तीन platforms, आठ दिन। Andrej Karpathy ने इसे "loopy era" कहा अपने AutoResearch agent के बाद जिसने 17 मार्च, 2026 को दो दिन में 700 experiments बिना supervision के चलाए।

जो तुमने शायद notice नहीं किया: मैंने तीनों platforms के हर doc page को check किया। Incident management के साथ zero integration। Freeze-window support नहीं। Deployment-state awareness नहीं। एक भी hook नहीं जो पूछे "क्या अभी बुरा वक्त है?"

Contextual blindness रात 2 बजे कैसी दिखती है

एक Routine dependency-update PR push करता है जब on-call engineer P0 incident से लड़ रहा है। एक Managed Agent Jira tickets बनाता है जो sprint-planning freeze से टकराते हैं। एक SDK agent failed API call retry करता है database mid-migration में।

हर action technically correct। हर एक operationally catastrophic।

ये वही class of failure है जिसने 11 मार्च को Amazon की दोपहर बर्बाद की। Kiro के पास environment recreate करने की permissions थीं। किसी ने वो judgment encode नहीं किया जो बताए मत करो

"Always-on" बिना "always-aware" की कीमत

आज agent awareness build करने का मतलब है custom wiring: triggers को PagerDuty, Opsgenie, ArgoCD, team calendars से connect करना — हर signal source के लिए एक MCP server (एक standardized plugin जो AI tools को external services से connect करता है)। ये कोई package करके नहीं दे रहा।

Routines की daily caps — Pro के लिए 5 runs, Max के लिए 15, Enterprise के लिए 25 — limit करती हैं कि agent कितनी बार run हो। ये नहीं बतातीं कब उसे चुप रहना चाहिए। The Register ने इन्हें "mildly clever cron jobs" कहा, जो generous है — क्योंकि actual cron कम से कम एक ऐसे ecosystem में चलता है जिसने दशकों पहले restraint सीखी।

जब तक platforms catch up करें, तब तक क्या करें

तीन चीज़ें, कोई optional नहीं:

  1. Agent runbooks document करो human runbooks के साथ। अगर तुम्हारा on-call playbook कहता है "incidents के दौरान deploy मत करो," तो तुम्हारे agent को भी यही rule चाहिए — उसकी config file में, तुम्हारे दिमाग में नहीं।
  2. Explicit freeze-window configs। भले ही hand-rolled हों। एक text file जो कहे "sprint planning: मंगलवार 10-11 AM, tickets मत बनाओ" — कुछ नहीं से कोसों बेहतर है।
  3. एक kill switch जो "Routine delete करो" न हो। "Running" और "हमेशा के लिए गया" के बीच कुछ। एक pause button। Apparently ये radical idea है।

वो discipline जो अभी exist नहीं करती

Agent era को और capabilities नहीं चाहिए। हर हफ्ते नई आ रही हैं। इसे अपनी ops discipline चाहिए — वो जो answer करे "agent क्या कर सकता है" नहीं बल्कि "agent को कब चुप रहना चाहिए।"

तुम्हारी team ने सालों लगाए वो instinct build करने में। तुम्हारे agents हर boot पर zero से शुरू होते हैं। जब तक platforms operational context को first-class primitive की तरह encode नहीं करते, ये gap तुम्हारी problem है — manually, tediously, एक-एक freeze window करके।

Kiro incident permissions failure नहीं था। Judgment failure था। और अभी, production में हर always-on agent वही blind spot carry करता है।