आठ Sandboxes और वो Lock-In जिसके बारे में किसी ने नहीं बताया

आठ दिन पहले (8 अप्रैल, 2026) Anthropic ने Managed Agents लॉन्च किए — $0.08 प्रति session-hour plus tokens पर। एक boring, audited default, जहाँ sandbox आपके लिए pre-selected है। सात दिन बाद, 15 अप्रैल को, OpenAI ने Agents SDK v0.14.0 ship किया और steering wheel आपके हाथ में थमा दिया: zero orchestration fee और आठ pluggable sandbox backends. पिछले हफ्ते की story थी agents अब tools call करने के बजाय code लिखते हैं। इस हफ्ते की story वो है जो अभी किसी ने नहीं चलाई: आप actually कौन सा sandbox pick करते हो, और गलत pick आपको क्या cost करेगा? 😼

SDK आठ execution backends के साथ ship होता है — local Unix, Docker, Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel — और official docs इन्हें compatibility matrix पर checkboxes की तरह list करते हैं। ये interchangeable नहीं हैं। हर एक "autonomous agent arbitrary code कहाँ run करे?" का अलग जवाब है — और उस सवाल के साथ एक threat model, एक latency profile, और एक bill attached है।

Shuru करते हैं security boundary से। Code mode में एक agent Python या shell लिखता है और execute करता है। अगर आपका sandbox बिना hypervisor के एक plain container है, तो guest के अंदर kernel exploit host पर kernel exploit है। E2B Firecracker microVMs पर चलता है — वही isolation model जो AWS Lambda use करता है — जो ~150ms cold start पर VM-grade escape resistance देता है। Modal gVisor-hardened containers चलाता है, vanilla Docker से ज़्यादा tight syscall filtering के साथ: boot faster, isolation story narrower. Cloudflare का Workers sandbox V8 isolates है (pure JS के लिए शानदार, shell के लिए बेकार) plus बाकी के लिए containers, edge POPs पर push किए गए। Runloop और Daytona long-lived devboxes पर lean करते हैं snapshot/restore के साथ — resume semantics के लिए सुंदर, revoke करना भूल गए तो terrible 😹

फिर state का सवाल। Agents को filesystem, git, और memory चाहिए जो crash के बाद survive करे। Daytona persistent workspaces देता है IDE-style semantics के साथ — आपकी MEMORY.md by default sessions के पार जीती है। Runloop snapshot-per-step करता है, तो resume cheap है लेकिन task length के साथ storage linearly बढ़ता है। E2B sandboxes को ephemeral treat करता है; persistence आपकी problem है — S3 पर solve करो। Modal state volumes में store करता है जो आप explicitly mount करते हो। Vercel का नया Sandbox product short-lived Node.js के लिए optimized है, multi-hour harnesses के लिए नहीं। इस हिसाब से pick करो कि आपके agent का task है "नब्बे सेकंड चलो और मरो" या "चार घंटे तक इस monorepo को debug करो।"

Egress वो जगह है जहाँ audits मरते हैं। Unrestricted outbound network वाला coding agent एक curl में private repo exfiltrate कर सकता है। Cloudflare और Modal per-sandbox egress policies first-class config के तौर पर expose करते हैं। E2B आपको per-template allowlists define करने देता है। Daytona और Runloop default से open egress — dev के लिए ठीक है, SOC 2 के लिए finding है। Local Docker आपको iptables देता है और आपका अपना regret.

Cost structure cleanly split होती है। Modal per-second CPU bill करता है, कोई idle charge नहीं — bursty workloads के लिए best. E2B per sandbox-minute active charge करता है — long tasks के लिए predictable, बहुत सारे short tasks के लिए महँगा। Cloudflare per request plus container-second charge करता है, scale पर cheapest अगर आपका agent work parallel और stateless है। Runloop और Daytona devboxes की तरह bill करते हैं: per-hour provisioned, चाहे agent काम कर रहा हो या model call पर wait कर रहा हो। ये last वाली matters — अगर आपका agent 70% wallclock LLM call पर blocked रहता है, तो per-hour devbox कुछ न करने के पैसे जला रहा है 😾

Lock-in twist जिसकी बात कोई नहीं करता: sandbox SDK APIs standardized नहीं हैं। E2B से Modal switch करना आपके provisioning code का rewrite है, config flip नहीं। OpenAI का Agents SDK invocation layer abstract करता है, provisioning layer नहीं। आपने खुद को Anthropic के managed lock-in से बचाया और चुपके से sandbox-vendor lock-in adopt कर लिया। वही पिंजरा, अलग keeper.

इसका practice में मतलब: 15 अप्रैल, 2026 तक, sandbox decision अब आपके agent stack में सबसे consequential architecture call है — model choice से ऊपर, framework से ऊपर। गलत pick, और आप एक ऐसा agent ship करते हो जो या तो insecure है, slow to start है, scale पर unaffordable है, या crash के बाद unresumable है। Right pick, और वो चीज़ infra में गायब हो जाती है जहाँ उसे होना चाहिए।

Rough sorting hat, benchmark नहीं 🐈: security-first regulated workload → E2B। Bursty parallel coding tasks → Modal। Long-lived developer-style agents IDE semantics के साथ → Daytona या Runloop। Edge-distributed lightweight tools → Cloudflare। JS-only short tasks → Vercel। बाकी सब, self-host Docker और pain खुद own करो।

पिछले दो हफ्तों में agent market hosted और open के बीच fork नहीं हुआ। वो fork हुआ "कोई आपके लिए sandbox pick करेगा" (Anthropic, 8 अप्रैल) और "आप sandbox pick करो और उसी के साथ जियो" (OpenAI, 15 अप्रैल) के बीच। वो $0.08/hour एक specific, audited, boring default खरीद रहा था। Zero-fee SDK ने आपको आठ roads वाला एक map थमा दिया। Fee कभी point थी ही नहीं। Decision point था 🐈‍⬛

आठ Sandboxes और वो Lock-In जिसके बारे में किसी ने नहीं बताया

Keep reading

OpenAI की Android Playbook: Runtime मुफ्त दो, Platform पर कब्जा करो

Agent Paradox: कम Autonomy, ज़्यादा Value

हर Agent Platform usage-based billing करता है। किसी ने Kill Switch नहीं दिया।

तीन AI Memory Systems, इनके काम करने का कोई सबूत नहीं