तुम्हारे AI coding assistant ने अभी-अभी एक Terraform module लिखा। कोई React component नहीं — वो file जो decide करती है कि तुम कितने servers का bill भर रहे हो, कौन तुम्हारा production database पढ़ सकता है, और तुम्हारा deploy pipeline secrets को public build log में leak कर रहा है या नहीं। तुमने उसे उसी आधे-अधूरे ध्यान से approve कर दिया जो एक utility function को देते हो। और यहीं से ये कहानी महंगी हो जाती है।

एक महीने पहले तक, ये tools अपनी हद में रहते थे: functions, components, API handlers। वहाँ bug का मतलब — user को तीन सेकंड के लिए 500 error दिखा। Irritating, survivable, भूलने लायक। लेकिन अप्रैल 2026 में, हर बड़े AI coding tool ने चुपचाप वो लाइन cross कर ली — infrastructure में घुस गए — और किसी ने review process update नहीं किया। क्यों करते भी? "सब code ही तो है, ना?"

बिल्कुल। और campfire और जंगल की आग — दोनों बस combustion ही तो हैं।

हर tool ने अप्रैल में infra agents शिप कर दिए

अप्रैल के पहले दो हफ्तों में तीन बड़े launches आए। 14 अप्रैल को Anthropic ने Claude Code Routines लॉन्च किया — cloud-hosted scheduled tasks जो तुम्हारा laptop सोता रहे तब भी चलते हैं, खासतौर से CI/CD verification के लिए बनाए गए — deployment output में errors स्कैन करते हैं। 16 अप्रैल को OpenAI ने अपना Agents SDK अपडेट किया — सात cloud providers पर native sandbox execution और Codex में SSH remote connections। 6 अप्रैल को Cursor 3 ("Glass") आया — parallel AI agents के लिए dedicated Agents Window — Cursor के अपने engineers मानते हैं कि उनके एक तिहाई से ज़्यादा PRs अब cloud-based agents से आते हैं। Microsoft भी मार्च के अंत से यही कर रहा है — Copilot agents के लिए "Agentic Platform Engineering" framework जो Terraform, Kubernetes, और GitHub Actions को target करता है — साथ में एक "Cluster Doctor" agent जो तुम्हारी Kubernetes problems diagnose करता है। कितना प्यारा।

इनमें से कोई भी tool utils.ts और main.tf में फ़र्क नहीं करता। कोई अलग confidence signal नहीं। कोई "भाई, ये file तुम्हारा cloud bill और security posture control करती है, शायद दो बार देख लो" नहीं। बस code है।

Blast radius का गणित

एक गलत function — bad API response देता है। कोई Jira ticket काटता है। एक गलत Terraform resource — एक लाइन जहाँ instance_type = "x1e.32xlarge" लिख दिया t3.micro की जगह — रातोंरात $50,000 जला देती है। तुम्हारी career का सबसे महंगा typo, 200 milliseconds में generate हुआ और उससे भी कम में approve। एक गलत IAM policy तुम्हारा production database leak कर देती है। एक टूटी GitHub Action secrets को public build log में publish कर देती है। Infrastructure code तुम्हारी app के अंदर नहीं चलता। ये तुम्हारी पूरी app चलाता है।

जैसा CloudMagazin ने 2 अप्रैल को लिखा: "AI-generated Terraform code लिखने में कम और पढ़ने में ज़्यादा वक्त लेता है — यही चीज़ इसे खतरनाक बनाती है।" उनका thumb rule: अगर तुम generated config का 20% से ज़्यादा line-by-line explain नहीं कर सकते, तो ये comprehension gap अपने-आप में एक security vulnerability है।

वो नंबर जिनकी बात कोई नहीं करता

यहाँ industry की असली बेइज़्ज़ती शुरू होती है। HumanEval जैसे coding benchmarks पर — isolated function challenges, जो एक दूसरे साल का CS student भी काफ़ी चाय पीकर solve कर ले — top models अब 99% score करते हैं (Morphllm के अप्रैल 2026 benchmark tracker के मुताबिक)। Impressive। और बिल्कुल irrelevant।

DPIaC-Eval, जून 2025 का एक paper जिसने पहली बार infrastructure-as-code generation को benchmark किया — 153 real-world AWS CloudFormation templates पर — उसमें average initial deployment success rate निकली 24.7%। पूरे templates पर security compliance: 8.4%। सबसे बड़ा failure mode: hallucinated properties — model पूरे confidence से ऐसे configuration fields invent कर देता है जो exist ही नहीं करते। गलत होने में शर्म नहीं है इसे। ये senior engineer वाले भरोसे से गलत है — बस सब कुछ बना रहा है।

तो: toy functions पर 99%। असली infrastructure चलाने वाले code पर 24.7%। इस gap की बात कोई नहीं करता क्योंकि न SWE-bench, न HumanEval, न कोई mainstream benchmark Terraform, Docker, या CI/CD files cover करता है। Gap invisible रहता है क्योंकि industry ने measure करना ही नहीं चुना।

इधर, ControlMonkey के सर्वे (जनवरी 2026) में 58% cloud teams ने कहा कि उन्हें AI से आई misconfigurations मिल चुकी हैं, और 81% governance teams का कहना है कि manual review AI-generation की speed से match नहीं कर सकता। Veracode के Q1 2026 के data के मुताबिक 41% AI-generated backend code overly broad permissions के साथ ship होता है — digital बराबर इसका: ऑफ़िस में सबको master key दे दो क्योंकि ये पता लगाना कि किसे क्या चाहिए, ज़्यादा मेहनत है।

तुम्हारे लिए इसका क्या मतलब है

Policy-as-Code tools मौजूद हैं — OPA, Checkov, tfsec — automated scanners जो insecure या non-compliant infrastructure configs को deploy होने से पहले पकड़ लेते हैं। कोई भी AI coding tool इन्हें अपनी default agent pipeline में integrate नहीं करता। तुम्हें खुद wire करना होगा। और तुम नहीं करोगे, क्योंकि इन agents की पूरी बिक्री इसी बात पर टिकी है कि तुम्हें खुद कुछ wire नहीं करना पड़ेगा। क्या मज़ेदार paradox है।

हर AI-generated infrastructure file को एक अलग, सख्त review चाहिए: dry-run validation, cost estimation, least-privilege audit। तुम्हारा tool ये line तुम्हारे लिए नहीं खींचेगा। या तो तुम खींचो, या तुम्हारा AWS bill खींच लेगा।

अदृश्य दीवार

AI coding productivity की कहानी एक ऐसी boundary पर आ गई है जिसका announcement नहीं हुआ: वो line जो तुम्हारी app के अंदर चलने वाले code और तुम्हारी app चलाने वाले code के बीच है। एक तरफ 99% benchmark scores और genuine time savings। दूसरी तरफ 24.7% success rates, 8.4% security compliance, और exactly zero guardrails।

तुम अभी भी Terraform को उसी नज़र से approve कर रहे हो जो एक utility function को देते हो। किसी ने warning label नहीं भेजा। इसे अपना समझो।