पिछले महीने तुमने OpenAI का pricing calculator इस्तेमाल किया। Input tokens — वो word-chunks जो AI पढ़ता है — अंदर गए, output tokens बाहर आए, सीधा multiplication। तुम्हारी budget spreadsheet साफ-सुथरी दिख रही थी। Responsible भी।

फिर April का invoice आया — estimate से 4 गुना ज़्यादा। तुमने prompts नहीं बदले। Workflows नहीं जोड़े। Volume नहीं बढ़ाया। तो हुआ क्या?

अदृश्य मीटर चालू हो गया

15-16 April को OpenAI ने दो बड़े updates भेजे: Agents SDK v0.14 model-native orchestration के साथ, और Codex का autonomous computer-use mode। दोनों default GPT-5.4 पर चलते हैं — एक reasoning model। Classic models जो बस जवाब देते हैं उनके उलट, reasoning models "thinking tokens" generate करते हैं — internal computation जहाँ AI respond करने से पहले खुद से debate करता है। ये tokens तुम्हें output में कभी नहीं दिखते। लेकिन ये तुम्हारे bill पर output tokens की तरह आते हैं, output token prices पर।

Model खुद decide करता है कि कितना सोचना है — problem की perceived difficulty के हिसाब से। एक आसान सवाल पर शायद 200 thinking tokens जलें। एक complex सवाल पर — 10,000। वही सवाल अलग-अलग दिन? 2x से लेकर 9.7x variance तक, Stanford, Berkeley, CMU, और Microsoft की March 2026 की preprint के मुताबिक।

गणित बुरी तरह बिगड़ता है

Multi-step agent run में — जहाँ AI दर्जनों sequential actions करता है — ये variance compound होता है। हर step एक fresh reasoning allocation है जिसे तुम predict या control नहीं कर सकते। 11,872 queries analyze करने वाली preprint ने 8 models पर पाया कि thinking tokens कुल output costs का 80%+ represent करते हैं, और 21.8% model comparisons में, supposedly सस्ता model असल में ज़्यादा महंगा पड़ा — reversal magnitude 28x तक। हाँ, सही पढ़ा: budget option premium वाले से 28 गुना ज़्यादा खर्च करवा सकता है। Pricing pages अब सिर्फ decoration हैं।

Real-world data इसकी पुष्टि करता है: developer platform GrisLabs ने March 2026 में 1,127 agent runs track किए — median cost $1.22 लेकिन 95th percentile $22.14 — एक ही काम करने वाले typical और expensive runs के बीच 18x ratio। Same prompt, same pipeline, 18x spread। तुम्हारे finance वाले इस variance analysis पर खुशी से नाचेंगे।

और बुरा: off switch सिर्फ दिखावा था

2 April को developers ने discover किया कि GPT-5.4 चुपचाप reasoning_effort="none" parameter को ignore कर देता है जब token budget के साथ combine किया जाए। Model full reasoning पर वापस default हो जाता है, तुम्हारा पूरा token allocation invisible thinking पर जला देता है, और return करता है एक empty string। तुम explicitly बोलते हो "मत सोच" और वो पहले से ज़्यादा सोचता है — फिर कुछ ना देने का charge भी वसूलता है।

OpenAI ने 9 April को bug acknowledge किया और claim करता है कि 20 April तक fix deploy हो गया — लेकिन 18 दिनों तक reasoning का "off switch" purely नाटक था। अठारह दिन जब एक parameter सिर्फ इसलिए exist करता था कि developers को control का भ्रम रहे जबकि model अपनी मर्ज़ी से चले। Peak UX।

कोई per-step reasoning budget API नहीं है। कोई per-run cap नहीं। OpenAI organization-level monthly spending limits offer करता है — ये वैसा ही है जैसे credit card limit दे दो जबकि ज़रूरत हर item पर MRP की हो।

Context के लिए: Anthropic की extended thinking में भी यही structural opacity है। Google का Gemini thinking mode कम से कम reasoning text output में दिखाता है, तो तुम देख तो सकते हो कि किस चीज़ के पैसे जा रहे हैं।

तुम्हारे लिए इसका मतलब

तुम क्या पूछते हो वो अब तुम्हारी agent cost control नहीं करता। Model privately decide करता है कि सवाल कितना मुश्किल है — वही control करता है, और ये decision identical requests पर अलग-अलग दिन बदलता है। हर autonomous run एक open invoice है जहाँ pen model के हाथ में है।

Agent pricing को per-step reasoning caps और transparent thinking budgets चाहिए। जब तक OpenAI ये ship नहीं करता, हर agent run को एक slot machine मानो जिसका published pay table तो है लेकिन maximum bet नहीं।