हर Agent Vendor ने इस हफ्ते Usage Dashboard Ship किया। Scorecard किसी ने नहीं भेजा।

वो नंबर जो हर AI agent dashboard से गायब है, उन सब नंबरों से ज़्यादा important है जो vendors ने दिखाने का फैसला किया: क्या agent ने सच में वो किया जो तुमने बोला था?

इस हफ्ते, दो और platforms consumption-metrics क्लब में शामिल हो गए। 10 अप्रैल को, GitHub ने अपने cloud agent के लिए active user counts add किए। 8 अप्रैल को, Anthropic ने Managed Agents launch किए — $0.08 per session-hour, millisecond तक bill, tokens अलग से। इनके साथ Google का Vertex AI Agent Engine भी है, जो पिछले साल GA होने के बाद से vCPU-second के हिसाब से meter करता है, और OpenAI का Codex, जिसका "Success Rate" metric बस ये देखता है कि API call complete हुई या नहीं — code काम करता है या नहीं, वो अलग बात है।

ये ऐसा है जैसे surgeon की productivity इससे नापो कि उसने कितने चाकू उठाए।

चार major platforms। Zero task success rates। Zero quality scores। Zero tracking कि human को agent का काम दोबारा करना पड़ा या नहीं।

कोई वो नहीं नापता जो actually matter करता है — क्यों?

इसलिए नहीं कि ये impossible है। इसलिए कि ये महंगा है, शर्मनाक है, और quarterly earnings के लिए बुरा है।

Chatbot एक जवाब देता है और तुम तुरंत judge कर लेते हो। Agent दस steps chain करता है — ticket पढ़ता है, docs search करता है, code लिखता है, PR खोलता है, Slack पर ping करता है। हर step silently fail हो सकता है। Final output evaluate करने के लिए domain expertise चाहिए। Vendors ने अभी तक ये भी define नहीं किया कि agent के लिए "success" का मतलब क्या है, measure करना तो दूर की बात।

और जो research exist करती है, वो slide deck पर डालने लायक नहीं है।

वो reliability gap जिसका कोई ad नहीं चलाता

24 फरवरी को, Princeton researchers Kapoor और Narayanan ने एक study publish की जिसमें 14 AI models को 500 benchmark runs पर test किया। उनकी finding: agent reliability — एक ही task हर बार सही करना — general tasks पर raw capability के मुकाबले आधी रफ्तार से improve हुई। Customer service tasks पर, reliability ने accuracy की सिर्फ 14% rate पर gain किया। उनका conclusion: "Agents को पता नहीं चलता जब वो गलत होते हैं।"

ये वो नंबर है जो हर dashboard पर होना चाहिए और है नहीं।

AI researcher Andrej Karpathy — OpenAI co-founder, ex-Tesla AI lead — ने practice में इसका मतलब अपने "March of Nines" framework में November 2025 में quantify किया: अगर दस-step workflow में हर step 90% बार succeed होता है, तो end-to-end success गिरकर 35% रह जाता है। अब सोचो वो agent रात 3 बजे autonomously चल रहा है, per hour bill हो रहा है, और कोई देख नहीं रहा।

Supporting data बढ़ता जा रहा है। CodeRabbit की 19 मार्च को publish हुई analysis ने 470 GitHub PRs examine किए और पाया कि AI-authored code human code के मुकाबले 1.7x ज़्यादा issues per PR produce करता है, security vulnerabilities 2.74x ज़्यादा। LangChain का 25 मार्च को release हुआ survey जिसमें 1,340 practitioners से पूछा: 57% पहले से production में agents चला रहे हैं, लेकिन सिर्फ 52% बाद में outputs evaluate करते हैं, और बस 37% agents के live चलते वक्त quality monitor करते हैं।

आधे से ज़्यादा industry ने agents deploy कर दिए बिना ये figure out किए कि वो काम भी करते हैं या नहीं। Bold strategy।

पैसे का खेल समझो

Usage-based billing को failed तीन-घंटे वाले session और successful session से बराबर फायदा होता है। $0.08 per session-hour charge करने वाले vendor को कोई financial incentive नहीं है तुम्हें ये बताने का कि 40% sessions कचरा produce करती हैं। Outcomes measure करने से वो metric actively hurt होगी जो Wall Street देखता है: revenue per customer।

Third-party observability tools — LangSmith, Braintrust, Helicone — ये gap भरने की कोशिश कर रहे हैं। लेकिन चार सबसे बड़े agent platforms कुछ native ship नहीं करते। तुम्हें speedometer मिलता है, destination नहीं।

तुम्हारे लिए इसका मतलब

अगर तुम्हारी team autonomous agents evaluate कर रही है — और statistically, कर रही है — तो वो एक नंबर demand करो जिससे हर vendor भागता है: तुम्हारा agent कितने percent tasks बिना human intervention के सही complete करता है?

अगर वो जवाब नहीं दे सकते, तो तुम productivity tool नहीं खरीद रहे। तुम एक billing meter खरीद रहे हो जिसके साथ coin flip लगा है।

Agent economy ने invoice के साथ launch किया जहाँ scorecard चाहिए था। जब तक कोई वो scorecard नहीं बनाता, तुम वो quality layer हो जो platform ने ship नहीं किया। Budget उसी हिसाब से बनाओ।

हर Agent Vendor ने इस हफ्ते Usage Dashboard Ship किया। Scorecard किसी ने नहीं भेजा।

कोई वो नहीं नापता जो actually matter करता है — क्यों?

वो reliability gap जिसका कोई ad नहीं चलाता

पैसे का खेल समझो

तुम्हारे लिए इसका मतलब

Keep reading

हर Vendor ने कमरा बनाया। गलियारा किसी ने नहीं बनाया।

Agent Chain Reliability कोई Ship नहीं करता। खुद कैसे बनाएँ, ये रहा तरीका।

Agent Paradox: कम Autonomy, ज़्यादा Value

तीन Agent Platforms, तीन अलग Species