आज सुबह हमने Anthropic के Managed Agents को एक platform play की तरह कवर किया था — lock-in की चार layers, हर एक पिछली से ज़्यादा चिपचिपी। लेकिन उस launch में छुपा हुआ billing model अपनी अलग postmortem deserve करता है। क्योंकि 8 April को तुम्हारा AI cost model fork हो गया, और तुम्हारी finance team को अभी तक पता ही नहीं है।
यहाँ split समझो। Traditional API calls — सवाल भेजो, जवाब आया — अभी भी per token bill होती हैं, पहले जैसा ही। लेकिन जो कुछ भी loop करता है, retry करता है, tools चलाता है, या autonomous सोचता है — उस पर अब एक दूसरा charge लगता है: $0.08 per session-hour, millisecond तक meter होता है। दो meter एक साथ चल रहे हैं। Anthropic पहला major vendor है जिसने agent compute को इस तरह price किया है। OpenAI और Google बिल्कुल अलग directions में गए हैं।
चलो एक ही workload तीनों से गुज़ारते हैं। एक realistic agent task: एक medium repository में code review। एक घंटे की runtime। Agent files पढ़ता है, tests चलाता है, failures पर loop करता है, summary लिखता है। अंत तक लगभग 500K input tokens और 100K output tokens खा चुका है।
Anthropic (Sonnet 4.6): Session runtime $0.08 पर। Input tokens $3/M पर: $1.50। Output $15/M पर: $1.50। Total: $3.08। Session fee bill का 2.6% है।
OpenAI (GPT-5.2-Codex): कोई session fee नहीं। Input $1.75/M पर: $0.88। Output $14/M पर: $1.40। Total: $2.28। Pure tokens। और कुछ track करने की ज़रूरत नहीं।
Google (Vertex AI Agent Engine): Per-second compute billing — vCPU और memory, cloud container जैसी pricing। एक standard agent runtime लगभग $3–$8 per hour चलती है configuration के हिसाब से, और ऊपर से Gemini token rates। Total बहुत उछलता है लेकिन आमतौर पर existing GCP commitments में समा जाता है। वही task लगभग $5–$10 पर पड़ सकता है — या practically शून्य अगर तुमने quarter के लिए पहले ही काफ़ी GCP spend commit कर रखा है।
छोटे scale पर OpenAI raw cost में जीतता है। Scale बढ़ाओ तो तस्वीर पलट जाती है।
10,000 agent-hours per month का budget लो। Anthropic की orchestration layer $800 flat है — एक line item जिसे CFO बिना tokenomics का tutorial पढ़े approve कर सकता है। OpenAI का bill pure variable है: हर token, हर retry, हर बार जब agent reconsider करने का फ़ैसला करता है — number हिलता है। कोई floor नहीं, कोई ceiling नहीं। Google का agent cost तुम्हारे cloud commitment में ग़ायब हो जाता है, जो तुम्हारे contract के हिसाब से या तो feature है या फँदा।
Break-even इस पर depend करता है कि तुम्हारे agents कितने token-hungry हैं। Lightweight agents — monitoring, routing, status checks — शायद 50K tokens per hour इस्तेमाल करें। Anthropic पर वो $0.31 total बैठता है। वो $0.08 session fee अब bill का 26% है। Rounding error नहीं। Heavy agents जो code generation या deep research करते हैं, 1M+ tokens per hour जलाते हैं। Session fee 1% से नीचे गिर जाती है। दिखती ही नहीं।
Anthropic एक built-in bet लगा रहा है: agents heavier होंगे, lighter नहीं। अगर industry token efficiency की तरफ़ जाती है — कम context में ज़्यादा काम — तो session-hour एक increasingly visible tax बन जाता है। अगर agents भूखे रहते हैं, तो ये noise में ग़ायब हो जाता है। Anthropic भूखे पर bet लगा रहा है।
तीन vendors, तीन billing philosophies, common units शून्य। तुम इन्हें एक ही spreadsheet में तब तक नहीं रख सकते जब तक एक normalization model नहीं बनाते, और उस model के लिए workload assumptions चाहिए जो तुमने अभी measure ही नहीं किए। 2026 में AI vendor costs compare करना 2014 में cloud costs compare करने से भी मुश्किल है — और वो problem अभी तक solve नहीं हुई।
तो चीज़ें यहाँ आकर खड़ी होती हैं। Simple API calls token meter पर रहती हैं। कुछ भी autonomous अब session-hours, pure tokens, या cloud-compute billing पर जीता है — vendor पर depend करता है। Switch करने का मतलब है सिर्फ़ API नहीं, पूरा financial model दोबारा सीखना।
Token तीन साल तक AI cost की universal unit था। Anthropic ने उसे दो dimensions में तोड़ दिया, और अब सबको चुनना है कि किस denomination में trading करनी है।



