तुमने अपने AI agent को एक दर्जन tools से जोड़ दिया — Slack, GitHub, Jira, database — और देखा कि उसने बड़े confidence से Jira में comment कर दिया जहाँ Slack message जाना चाहिए था। और फिर इसके पैसे भी वसूले। Classic मंगलवार।
तुम्हारा instinct कहता है "बेहतर model ले आओ।" लेकिन model की reasoning खराब नहीं है। वो बस वही information पढ़ रहा है जो उसे हर tool के बारे में मिलती है: एक description field — plain text की कुछ lines — जो किसी developer ने रात 2 बजे hackathon में लिखी थीं। वो description एक prompt है। तुम्हें बस पता नहीं था कि तुम prompt लिख रहे हो।
April 2026 में agent platforms की बारिश हो गई। 8 April को Anthropic ने Claude Managed Agents लॉन्च किया — एक cloud service जो infrastructure, state management, और tool orchestration handle करती है, $0.08 per session-hour पर। 15 April को OpenAI ने अपना Agents SDK अपडेट किया sandbox environments और guardrails के साथ। फिर Cloud Next (22-24 April) में Google ने Gemini Enterprise Agent Platform पेश किया जिसकी headline feature थी: Agent Optimizer — एक algorithm जो real-world failures को cluster करके agent instructions को auto-tune करता है।
तीन हफ्तों में तीन platforms, हर एक promise कर रहा है कि तुम्हारे agents smarter बनाएगा। लेकिन एक catch है जो किसी ने नहीं बताया: तीनों system prompt optimize करते हैं। कोई भी tool descriptions को हाथ नहीं लगाता।
Google के अपने docs के मुताबिक, Agent Optimizer algorithm सिर्फ system instructions पर काम करता है। हर tool schema में description field — वो text जो model actually पढ़ता है ये decide करने के लिए कि कौन सा tool call करना है — एक blind spot में बैठा है। Anthropic के Managed Agents को वही MCP descriptions मिलती हैं जो तुम feed करते हो। OpenAI का SDK तुम्हारे function schemas को as-is pass कर देता है। Optimization दरवाज़े पर ही रुक जाता है।
Mechanism ये है। जब agent tools invoke करता है, तो LLM को हर registered tool का JSON schema मिलता है। हर schema में एक plain-text description field होता है। Model हर call पर सब पढ़ता है और best match चुनता है। MCP, OpenAI function calling, Google का ADK — सबका pattern same है। ये prompt engineering है जो छुपकर बैठी है, और कोई platform इन prompts को validate नहीं करता।
इन prompts की quality? भयानक। एक March 2026 benchmark में पाया गया कि 97% से ज़्यादा MCP server descriptions में कम से कम एक quality issue है — unclear purpose statements, missing edge cases, ambiguous parameter semantics। हमने downstream effects पहले भी cover किए हैं: tool sprawl accuracy को तबाह करता है, और जो teams aggressively audit करती हैं उन्हें तुरंत फ़ायदा दिखता है। लेकिन root cause वही रहता है। कोई description text को उतनी सख्ती से review नहीं करता जितनी code को करता है।
इसके साथ ही, ये descriptions tokens खाती हैं चाहे tool fire हो या न हो। अकेला GitHub MCP server (93 tools) सिर्फ schemas के लिए ~55,000 tokens inject करता है। GitHub, Slack, और Sentry तीनों को stack करो: 143,000 tokens। ये 200K context window का 72% है — agent ने कुछ उपयोगी करने से पहले ही खत्म। दिन में 100 requests पर, ये महीने के $510 है सिर्फ schema overhead में। तुम intelligence के लिए pay नहीं कर रहे। तुम model को हर call पर खराब documentation पढ़वाने के लिए pay कर रहे हो।
और कोई registry इसे fix नहीं करती। TrueFoundry के April 2026 analysis के मुताबिक, official MCP Registry में "कोई built-in curation, ratings, या governance features नहीं हैं।" Smithery कोई reliability evaluation नहीं देती। MCP Market "quality या security की कोई guarantee नहीं" देता। Wild में 10,000 से ज़्यादा MCP servers, 97 million monthly SDK downloads, और एक भी marketplace ये score नहीं करता कि tool की description actually tool के काम से match करती है या नहीं।
Google, Anthropic, और OpenAI — तीनों ने agent platforms ship किए जो मान लेते हैं कि tool layer किसी और का problem है। Google तो तुम्हारा system prompt भी optimize कर देगा — लेकिन tool selection system prompt में नहीं होता। वो description field में होता है। और अभी, वो field किसी developer की रात 2 बजे की hackathon prose है, जो हज़ार MCP forks में copy-paste हुई है, हर model हर call पर पढ़ता है, और किसी ने कभी review नहीं की।
तो model upgrade करने से पहले, provider बदलने से पहले, या अपना 51वाँ integration जोड़ने से पहले — जो descriptions तुम already ship कर रहे हो उन्हें audit करो। ये वो prompts हैं जो तुम्हें पता नहीं था कि तुम लिख रहे हो, और ये तुम्हारे agent का हर tool decision control करती हैं।
Agent tool ecosystem में अगला differentiator ये नहीं होगा कि किसके पास सबसे ज़्यादा integrations हैं। ये होगा कि किसने उन्हें सही से label किया है। पहली registry जो description quality enforce करेगी — वो agent world की npm-with-TypeScript बनेगी। और अभी, वो registry exist नहीं करती।




