तुमने अपने agent को Slack, Linear, GitHub, और internal Postgres से जोड़ा। पंद्रह tools, साफ-सुथरे JSON schemas, और एक prompt जो कहता है "you are a helpful assistant." दो-step वाले tasks पर ये कमाल करता है। पाँचवें step पर ये कोई filter skip कर देता है, किसी field को गलत quote कर देता है, या वही schemas बार-बार पढ़ते हुए 40k tokens जला देता है। Welcome to the ceiling of classic tool-calling 😹.
यहाँ वो setup है जो marketing pages पर कोई नहीं बताता। Traditional tool-calling में — वही pattern जो हर SDK ने 2024–2025 में ship किया — एक agent (एक program जो LLM को wrap करके उसे tools देता है) हर single turn पर पूरा JSON schema (हर tool के inputs का machine-readable description) context window (model की working memory) में dump कर देता है। पंद्रह tools rich types के साथ? वो 5–10k tokens हैं इससे पहले कि model hello भी बोले। फिर model एक tool pick करता है, उसके arguments भरता है, result का wait करता है, और फिर वही दोहराता है। Loops, conditionals, data transforms? कुछ नहीं। Model इन्हें fake करता है — दस अलग-अलग calls chain करके, ये उम्मीद करते हुए कि उसे call number तीन में जो दिखा वो याद रहेगा।
वो दो हफ्ते जिन्होंने default बदल दिया
14 और 15 April, 2026 के बीच, तीन vendors ने एक ही pattern ship किया और चुपचाप पुराने को retire कर दिया।
15 April, 2026 को, OpenAI ने Agents SDK का अगला evolution announce किया, जो v0.14.0 "Sandbox Agents" के रूप में आया (उसी दोपहर v0.14.1 में hotfix हुआ GitHub release page के मुताबिक)। मुख्य features: code mode, sandboxing, sub-agents, एक long-horizon harness, और 100+ LLMs के लिए provider-agnostic support। TechCrunch ने इसे ऐसे frame किया जैसे OpenAI उस pattern को catch up कर रहा है जिसे Cloudflare और HuggingFace पिछले छह महीने से benchmark कर रहे थे।
एक दिन पहले, 14 April, 2026 को, Anthropic ने Claude Code Routines के लिए research preview खोली — saved Claude Code configurations जो Anthropic के cloud पर persistent autonomous agents की तरह चलती हैं, schedule, HTTP webhook, या GitHub event से trigger होती हैं। वही shape: tools वो code हैं जिन्हें agent import करता है, वो JSON नहीं जिसे ये उगलता रहता है।
इसी 14 April को, Cloudflare ने "Scaling MCP adoption" publish किया — enterprise reference architecture जिसने numbers को शर्मनाक बना दिया। उनका benchmark: 4 internal MCP servers connect करो जो 52 tools expose करते हैं। Classic tool-calling प्रति turn ~9,400 context tokens जलाता है। Portal के जरिए Code Mode: ~600 tokens। यानी 94% reduction, और — ये है असली जीत — जैसे-जैसे आप और servers जोड़ते हैं, cost flat रहती है 🙀।
Code mode असल में करता क्या है
Schemas को prompt में ठूँसने के बजाय, runtime model को एक typed module देता है। Model एक छोटा program लिखता है। Sandbox उसे run करता है। Tools कभी context window में नहीं आते — सिर्फ उनके signatures आते हैं, और अक्सर वही जिन्हें model ने search() से माँगा हो।
from agents import Agent, CodeMode, Sandbox
agent = Agent(
model="gpt-5.1",
mode=CodeMode(runtime="python"),
sandbox=Sandbox(backend="e2b"), # या docker, modal, runloop
tools=[slack, linear, github, pg], # plain typed functions
)
agent.run(
"इस हफ्ते Linear में खुले हर P0 bug को ढूँढो, "
"GitHub PRs से cross-check करो, और #triage पर summary post करो।"
)
Hood के नीचे model कुछ ऐसा emit करता है:
bugs = linear.search(priority="P0", opened_after="2026-04-09")
prs = {b.id: github.find_pr(ref=b.id) for b in bugs}
unmatched = [b for b in bugs if not prs[b.id]]
slack.post("#triage", render(bugs, unmatched))
एक loop, एक dict comprehension, एक filter, और एक conditional — सब एक sandbox round-trip में। Classic tool-calling वाला version 12+ turns है और सिरदर्द मुफ्त में।
सबूत
HuggingFace का smolagents framework महीनों से यही दिखा रहा है: CodeAgent multi-step benchmarks पर ToolCallingAgent से ~30% कम steps लेता है, और smolagents + GPT-4o GAIA validation पर #1 (44.2%) पर बैठा है। Cloudflare के April के numbers: simple tasks पर ~32% कम tokens, complex chains पर ~81% कम, WorkOS के analysis के मुताबिक। Cloudflare के Kenton Varda और Sunil Pai की वो canonical line आज भी सच है: "LLMs MCP को directly call करने से, MCP को call करने के लिए code लिखने में बेहतर हैं।"
इसकी कीमत क्या है
ये free नहीं है 😾। Code mode को real sandbox चाहिए — Docker, E2B, Modal, Runloop, Daytona, या OpenAI का built-in harness — क्योंकि अब आप अपनी infrastructure पर model का लिखा हुआ code चला रहे हैं। Sandbox skip किया तो एक prompt injection और RCE तैयार। ज़्यादातर existing observability tools JSON traces assume करते हैं और opaque code blobs पर टूट जाते हैं। आपका security model "arguments validate करो" से shift होकर "arbitrary execution को contain करो" बन जाता है — जो एक अलग review process है, अलग threat model है, और अक्सर अलग team है। Single-shot, one-tool tasks के लिए — "Boston का weather बताओ" — code mode बिना वजह latency जोड़ता है।
Monday को क्या करें
अगर आप April 2026 में कोई agent greenfield कर रहे हैं, तो day one से code mode को default बनाओ। वो SDK pick करो जो tools को sandboxed runtime के अंदर चलाता हो, अपने tools को plain typed Python या TypeScript functions के रूप में लिखो, और JSON schemas hand-craft करना बंद करो। अगर आपका production agent classic tool-calling पर है और काम कर रहा है, तो panic-migrate मत करो — पर हर बार जब sixteenth tool add करो, token math करके देख लेना।
Verdict
Single-step calls के लिए tool-calling मरा नहीं है 🐈। पर जो भी agent दो से ज़्यादा actions chain करता है, उसके लिए industry ने अभी-अभी decide किया है — 14 और 15 April, 2026 के बीच 48 घंटों में — कि agent की native language code है, JSON नहीं। अगर आप देख नहीं रहे थे, stack आपके नीचे से shift हो चुकी है 😼।





