तुमने अपने AI agent को पाँच tools से जोड़ दिया — Slack, GitHub, Jira, database, email। हर एक काम करता है। individually test किया, सब green lights, खुद को शाबाशी दे दी। Dashboard बोल रहा है 95% success rate। ज़िन्दगी झिंगालाला।

बस एक छोटी सी दिक्कत — तुम्हारा actual workflow — database read करो, ticket बनाओ, repo update करो, Slack पर notify करो, summary भेजो — दिन में एक-दो बार चुपचाप गायब हो जाता है। कोई alarm नहीं बजता। कोई dashboard लाल नहीं होता। Agent बस... finish नहीं करता। और तुम सोचते रहते हो कि पागल तुम हो रहे हो या machine तुम्हें gaslight कर रही है।

वो Gap जो किसी ने Fix नहीं किया

Google Cloud Next 22 अप्रैल को खत्म हुआ, agent announcements का पूरा ढेर लेकर। तीन दिन पहले, 17 अप्रैल को, AWS ने अपनी Agent Registry in AgentCore launch की। और इसी महीने की शुरुआत में, 8 अप्रैल को, Anthropic ने managed agents ship किए। तीनों अब agent monitoring offer करते हैं। तीनों per-tool metrics measure करते हैं — latency, error rates, request counts via MCP (Model Context Protocol — AI tools के लिए एक universal plug standard, USB जैसा बस data के लिए)। कोई भी compound chain reliability measure नहीं करता: वो probability कि तुम्हारा multi-step workflow actually पूरा होगा।

पाँच steps, हर एक 95% reliable? End-to-end मिलता है 77.4%। साधारण multiplication जो तुम्हारा dashboard करने से मना करता है।

नंबर जानना step one है। उसे fix करना असली काम है। तो frameworks तुम्हें क्या देते हैं?

Frameworks असल में क्या Ship करते हैं

LangGraph सबसे करीब आता है। इसकी Checkpointer classes हर graph node पर state persist करती हैं। Step four fail हुआ? Step three से resume करो — शुरू से नहीं। Real infrastructure। Catch ये है: तुम्हारा पूरा agent एक state graph होना चाहिए। पहले से बने agent को retrofit करने का मतलब है — पूरा rewrite।

CrewAI तुम्हें per task max_retry_limit और callback hooks देता है। यानी retry logic — same tool, same input, फिर से try करो। अगर failure एक malformed MCP server response से आ रही है, तो वही चीज़ बार-बार try करना पागलपन की definition है।

Google का ADK, Cloud Next में 22 अप्रैल को announce हुआ, session-level state management ship करता है। उनकी observability layer — तीनों में सबसे advanced — फिर भी per-call traces render करती है। तुम्हें individual MCP call latency दिखती है। ये नहीं दिखता कि "ये पाँच-call chain इस हफ्ते 77% बार complete हुई।"

Anthropic के managed agents session status, duration, और cost track करते हैं। Billing के लिए useful। Chain completion के लिए बेकार।

वो Missing Primitive

9 मार्च को publish हुई एक Google Cloud Community playbook वो core pattern document करती है जो कोई natively ship नहीं करता: step-level checkpointing — हर step का output save करो ताकि chain बीच से resume कर सको। LangGraph ये करता है। बाकी सब: अपनी persistence layer खुद लिखो।

Playbook में circuit breakers, fallback routing, और दूसरे microservices patterns भी हैं जो agents के लिए adapt किए गए हैं। Reference के लिए useful, लेकिन असली gap ऊपर है: chain-level SLOs। "ये workflow end-to-end 95% बार complete होना चाहिए।" कोई भी platform ये metric offer नहीं करता। तुम इसे custom telemetry, एक time-series DB, और अपने alerting rules से बनाते हो।

और ये सब real engineering work है उन platforms के ऊपर जो पहले से तुमसे पैसे ले रहे हैं — Anthropic $0.08 per session-hour, मिसाल के तौर पर।

सोमवार सुबह क्या करें

Native checkpointing वाला framework चुनो। नया शुरू कर रहे हो तो LangGraph की state persistence सबसे कम बुरा option है। पहले से agents चला रहे हो तो एक और MCP server जोड़ने से पहले अपनी तीन सबसे critical chains में step-level saves डालो।

Chain-level success instrument करो। Per-tool नहीं — per-workflow। एक single boolean log करो: chain finish हुई या नहीं? Weekly aggregate करो। Number देखकर बुरा लगेगा, लेकिन कम से कम number तो होगा।

Chains छोटी रखो। तीन steps, दस नहीं। हर extra step तुम्हारी failure probability multiply करता है।

असली Infrastructure Gap

Agent stack में अगला meaningful upgrade कोई smarter model या faster tool नहीं है। वो framework है जो compound chain reliability को वैसे treat करे जैसे databases transaction guarantees treat करते हैं — first-class primitive की तरह, DIY project की तरह नहीं। LangGraph का checkpointing इस future का hint देता है। Google के ADK की session management उसी direction में इशारा करती है। बाकी सब तुम्हें individual कड़ी की मज़बूती बेच रहे हैं और उम्मीद कर रहे हैं कि तुम कभी पूरी chain खींचोगे नहीं।