तुम्हारे AI agent demo ने बढ़िया काम किया। उसने सवालों के जवाब दिए, tools call किए — छोटे programs जो AI खुद trigger करता है data fetch करने या actions लेने के लिए — और edge cases भी handle कर लिए। API bill आया $47। तुम्हारा boss excited हो गया। PM ने roadmap लिखना शुरू कर दिया। CEO ने board meeting में ज़िक्र कर दिया।

अब उसी agent को production में deploy करो 10,000 users के लिए और देखो कैसे $47 एक ऐसी number बन जाती है जो तुम्हारे CFO का BP high कर दे। 💰

वो budget जो demo day पर कोई नहीं दिखाता

Q1 2026 में agent launches की बाढ़ आ गई — Anthropic ने Claude agent integrations enterprise के लिए ship किए, OpenAI ने Operator paying teams को roll out किया, Google ने Gemini agents को Workspace में push कर दिया। हर vendor की एक ही कहानी: API plug in करो, काम होता देखो। Invoice की बात किसी ने नहीं की।

चलो reverse-engineer करते हैं कि पैसा actually कहाँ जाता है जब तुम एक AI agent — एक autonomous program जो LLM (large language model, Claude और ChatGPT के पीछे का दिमाग) से powered है — को एक चमचमाते demo से real product में ले जाते हो।

Mavvrik और Benchmarkit के Q3 2025 survey के मुताबिक, 85% organizations अपनी AI costs को 10% से ज़्यादा गलत estimate करती हैं। लगभग एक चौथाई तो 50% से ज़्यादा चूक जाती हैं। ये rounding error नहीं है — ये एक viable product और budget में आग लगने के बीच का फ़र्क है।

जब मैं production deployments में खोदता हूँ तो ये breakdown बार-बार दिखता है: 🔍

LLM API costs (कुल खर्च का 40-60%). API — वो pipe जिससे तुम्हारी app Claude या GPT को prompts भेजती है और responses वापस पाती है — हर token पर charge करती है (एक word-chunk जो AI पढ़ता है, लगभग एक English word का ¾)। एक single Claude Opus 4.6 call full context window के साथ — यानी AI एक बार में कितना text "देख" सकता है — Anthropic के pricing page के हिसाब से $5 per million input tokens पड़ता है। इसे हज़ारों users से multiply करो जो multi-step workflows retries के साथ चला रहे हैं, और एक moderate-traffic app के लिए $10,000–50,000/month देख रहे हो। किसी ने prompts tweak करना शुरू भी नहीं किया।

Data preparation (initial costs का 40-60%). तुम्हारे agent को knowledge चाहिए। वो knowledge documents, databases, और APIs में पड़ी है जिन्हें cleaning, chunking, embedding — text को numbers में convert करना ताकि search system match कर सके — और indexing की ज़रूरत है। ये one-time काम नहीं है। Data बदलता है, schemas evolve होते हैं, और तुम्हारी RAG pipeline (retrieval-augmented generation — एक system जो AI को जवाब देने से पहले relevant documents feed करता है) को लगातार babysitting चाहिए। किसी भी non-trivial system के लिए $25,000–100,000 का budget रखो।

Integration (ऊपर से 20-35% extra). तुम्हारा agent तुम्हारे CRM, database, ticketing system, auth layer से बात करता है। हर integration bugs का एक surface है, एक dependency जो रात 3 बजे टूट सकती है, और एक security boundary जिसका audit होना चाहिए।

Governance का surprise (20-30% budget bump). सबसे sneaky line item। तुम्हारा agent ship हुआ, फिर legal data privacy के बारे में पूछता है। Security prompt injection के बारे में पूछती है — जब कोई AI को उसकी instructions ignore करने के लिए trick करता है। Compliance audit trails माँगती है। ये सब एक ऐसे system में retrofit करना जो इसके लिए design ही नहीं हुआ था, हमेशा build करने से ज़्यादा महंगा पड़ता है। और ये हमेशा mid-project होता है क्योंकि prototype demo में कोई legal को invite नहीं करता।

Maintenance अकेली development cost को पहले साल के अंदर पार कर जाती है। Model version migrations, security patches, scaling adjustments, और वो constant tuning जो ज़रूरी होती है जब तुम्हारा agent hallucinate करना शुरू करे — गलत जवाब confident होकर देना — नए-नए creative तरीकों से।

Deloitte के November 2025 survey में पता चला कि सिर्फ 11% organizations actually AI agents production में चलाती हैं। बाकी pilots में फँसी रह गईं — teams ने cost overruns के बाद उन्हें छोड़ दिया या चुपचाप shelf पर रख दिया।

Spreadsheet का दूसरा पहलू

ये costs real हैं, लेकिन context भी चाहिए। 20 लोगों की customer support team सिर्फ salary में $800K–1.2M per year खाती है। अगर AI agent 60% tickets $200K/year all-in में handle करता है, तो ये फिर भी massive win है।

Pricing trend तेज़ी से नीचे जा रहा है। Anthropic का Haiku 4.5 सिर्फ $1 per million input tokens पड़ता है — Opus से 80% सस्ता (ऊपर वाला pricing page)। Smart architecture — simple queries को cheaper models पर route करना, common responses cache करना, context compress करना — LLM costs को 70-90% तक काट सकती है। जो teams budget उड़ाती हैं वो हर चीज़ के लिए Opus use करती हैं क्योंकि उनकी prompt engineering lazy है।

और वो 11% production figure? एक साल पहले ये 4% पर था। Failure rate इसलिए high है क्योंकि ये एक नई category है। Cloud migration, mobile apps, और हर दूसरी technology shift जो eventually normal बनी — सबकी early-stage failure rates ऐसी ही दिखती थीं।

मैं हर पूछने वाले को क्या बोलता हूँ 🦝

अपना API cost estimate तीन गुना करो। Prototype से जो भी calculate किया, तीन से multiply करो। Users agent को उन तरीकों से use करेंगे जो तुमने कभी test नहीं किए। Edge cases को ज़्यादा context चाहिए। Token usage बढ़ता है, घटता कभी नहीं।

सबसे सस्ते model से शुरू करो जो काम कर जाए। Simple routing के लिए Haiku। ज़्यादातर tasks के लिए Sonnet। Opus सिर्फ मुश्किल problems के लिए। Model routing — automatically decide करना कि कौन सा AI model कौन सा request handle करे — same traffic पर $5K/month और $50K/month के बीच का फ़र्क है। ⚡

Boring चीज़ों के लिए budget रखो। Monitoring, logging, rate limiting, fallback handling, cost alerts। बिना cost controls वाला agent एक credit card है जो random number generator से जुड़ा हो।

Governance day one से plan करो। Day 90 नहीं, "launch के बाद" नहीं, "जब legal वो email भेजे" तब नहीं। Day one।

Production में AI agents महंगे हैं। बस alternatives से कम महंगे हैं — अगर तुम reality के लिए budget करो, demo के लिए नहीं। जो companies fail होती हैं वो अपना business case उस $47 prototype run पर बनाती हैं। जो companies जीतती हैं वो real numbers देखती हैं और बोलती हैं "हाँ, $30K/month लगता है, और फिर भी worth it है।"

Ship करने से पहले ये फ़र्क समझ लो। 🚀