Anthropic ने Managed Agents launch किए, OpenAI हर token पर meter चला रहा है ऊपर से platform fees अलग, और Google per vCPU-hour charge कर रहा है। हमने कल इस event और billing के इस चिड़ियाघर को cover किया था। लेकिन सबने — मैंने भी — orchestration fees को घूरने में बहुत ज़्यादा वक़्त बर्बाद किया। असली नंबर एक layer और नीचे छुपा है।

Orchestration costs — Anthropic के $0.08/session-hour, Google के ~$0.09/vCPU-hour — ये सब शोर है। Babysitting के कुछ पैसे प्रति घंटा। जिस नंबर पर तुम्हारे CFO को रात की नींद खोनी चाहिए वो token price है, क्योंकि 10x का gap वहीं बैठा है।

वो Math जो किसी ने सामने नहीं रखी

ये रहा underlying models का cost — एक million input tokens process करने का:

  • Gemini 2.5 Flash: $0.30
  • GPT-5: $1.25
  • Claude Sonnet 4.5: $3.00

ये rounding का फ़र्क नहीं है। Google का सबसे सस्ता model Anthropic के workhorse से raw inference पर दस गुना सस्ता है। एक agent जो million tokens चबा रहा है — लगभग 750,000 शब्द — Flash पर $0.30 में चलेगा बनाम Claude पर $3.00। हज़ारों daily sessions से multiply करो, और orchestration fees एक बहुत बदसूरत spreadsheet में footnote बन जाती हैं।

असली जंग यही है। Sandbox किस rate पर मिलता है ये नहीं। Thinking किस rate पर मिलती है — ये।

Google का Android Playbook, Reloaded

Enterprise analyst Kai Waehner ने 6 अप्रैल को समझाया: Google के पास पहले से 11 million Cloud-connected organizations हैं जो हर महीने card swipe करती हैं। उन्हें agent orchestration margins पर जीतने की ज़रूरत नहीं। उन्हें agents चाहिए जो ज़्यादा compute consumption drive करें — उस infrastructure पर जिसके लिए customers पहले से pay कर रहे हैं।

ये Android economics है जो AI पर apply हो रही है। Runtime लगभग cost price पर दे दो, price इतना irresistible बनाओ कि मना ही न कर सकें, और फिर monetize करो उस ecosystem को जो customers इसके around build करते हैं। Vertex AI Agent Engine का free tier ~50 घंटे compute cover करता है — बस इतना कि तुम्हारी pipelines Google के session management ($0.25 per 1,000 events), Google के memory banks, Google के RAG Engine पर depend हो जाएं।

Waehner फिर से: "Gemini चुनने का मतलब है Google Cloud को अपना inference layer चुनना, Google Workspace को अपनी productivity surface, और Vertex AI को अपना development platform।"

ये pricing decision नहीं है। ये adoption ceremony है।

वो हिस्सा जहाँ "सस्ता" महंगा पड़ता है

10x token discount Google के पूरे stack के साथ stapled आता है। तुम्हारे agents Vertex session management, Google की document retrieval, Google की orchestration layer में wire हो जाते हैं। बाद में Anthropic या OpenAI पर migrate करने का मतलब — scratch से rebuild। Data pipelines, memory stores, retrieval logic, सब कुछ।

Anthropic उल्टा card खेलता है। Claude उसकी अपनी API, AWS Bedrock, और Google की अपनी Vertex AI — तीनों पर available है। Per-token cost ज़्यादा है, लेकिन तुम exit door ख़रीद रहे हो। OpenAI बीच में कहीं बैठा है, Azure के साथ hedge करते हुए अपनी platform gravity बना रहा है।

सबसे सस्ते tokens सबसे चिपचिपे infrastructure के साथ आते हैं। हमेशा से ऐसा था, हमेशा ऐसा रहेगा।

तुम्हारे लिए इसका क्या मतलब है

अगर इस महीने agent platform चुन रहे हो, तो orchestration fees compare करना बंद करो। Providers के बीच token cost gap runtime cost gap से 5-10x ज़्यादा चौड़ा है। अपने projected volume पर total inference spend का हिसाब लगाओ, फिर ख़ुद से पूछो — दो साल बाद provider switch करने के लिए कितना pay करोगे।

AI agent wars अब इस बारे में नहीं कि कौन सबसे smart model बनाता है। अब बात ये है कि किसके पास पहले से तुम्हारा cloud contract है — और कौन "free" को bargain जैसा feel करा सकता है जब तक switching costs न आ जाएं। Google के पास उन contracts में से सबसे ज़्यादा हैं, और उन्होंने अपने agent runtime की pricing ऐसे रखी है जैसे उन्हें ये बात अच्छे से पता हो।