IDE खोलो, AI को एक module पर point करो, बोलो "refactor this," और चले जाओ। बीस मिनट बाद वापस आओ तो पता चलता है कि file 16 को ऐसे rewrite कर दिया जो file 3 में उसी ने लिए decisions से बिल्कुल उल्टा है। AI भूल गया। फिर से।

ढाई महीने पहले, OpenAI ने कहा था ये problem fix हो गई। GPT-5.2-Codex 14 जनवरी को launch हुआ एक बड़े promise के साथ: context compaction — एक agent जो लंबे sessions में याद रखता है कि वो क्या कर रहा है। पूरी coding community ने सांस रोक ली। अब मार्च खत्म होने को है, hype cycle अपना पूरा चक्कर लगा चुका है, और हमारे पास काफी real-world experience है बस एक सवाल पूछने के लिए: क्या ये सच में deliver हुआ?

Pitch तो compelling थी। हर AI का एक context window होता है — उसकी working memory, कितना text वो एक बार में "देख" सकता है। लंबे coding session में ये window भर जाता है। जब overflow होता है, model पहले के decisions भूल जाता है और खुद से contradict करने लगता है। Context compaction GPT-5.2-Codex को उस window में जो है उसे intelligently compress करने देता है — important चीज़ें रखो, noise हटाओ। Theory में, यही फर्क है एक 30-minute task handle करने वाले agent और 3-घंटे की refactoring marathon में बिना amnesia survive करने वाले agent में।

OpenAI ने cybersecurity detection भी बेक इन की — model code generate करते समय vulnerabilities पकड़ता है, अलग scanning step नहीं। Benchmarks पर, GPT-5.2-Codex ने SWE-Bench Pro और Terminal-Bench 2.0 पर top scores मारे। Windows support को भी dedicated boost मिला, जिसमें बस... कई साल लगे।

दो महीने के production use ने क्या दिखाया — context compaction काम करता है — आंशिक रूप से। एक घंटे से कम sessions के लिए, improvement असली और noticeable है। तुम्हारा agent अपना thread रखता है, file 3 के architectural decisions file 16 पर पहुंचकर भी याद रहते हैं। लेकिन बड़े codebase पर दो घंटे से आगे जाओ तो दरारें दिखने लगती हैं। Compaction definition से lossy है — उसे कुछ तो discard करना ही है — और model का judgment कि क्या "noise" है, हमेशा तुम्हारे से match नहीं करता। Subtle invariants compress होकर ग़ायब हो जाते हैं। Session की शुरुआत में establish किए type constraints उड़ जाते हैं। Raw context overflow से काफी बेहतर है, significantly बेहतर, लेकिन "solved" बोलना ज़्यादा होगा।

Security claims? जब तक कोई comprehensive red-team report publish नहीं करता — press release नहीं — तब तक पूरा भरोसा नहीं। ज़्यादातर real-world vulnerabilities obvious patterns नहीं होतीं जो model पकड़ ले — ये subtle architectural mistakes होती हैं, timing bugs, business rules में दबे logic errors। "Generation के दौरान vulnerabilities detect करता है" — keynote में बढ़िया लगता है। Production में, जो bugs सच में नुकसान पहुंचाते हैं, वो वही हैं जो कोई model आते नहीं देखता। Community reports अब तक बताते हैं कि ये low-hanging fruit पकड़ता है — SQL injection patterns, obvious buffer issues — लेकिन architectural-level flaws miss कर देता है जो actually breaches cause करते हैं।

Strategically, ये हमेशा से catch-up move था, और market ने इसे वैसे ही treat किया। Claude Sonnet 4.5 ने इस launch से पहले महीनों coding model का तख़्त अपने पास रखा। Cursor ने अपने models बनाए। Windsurf ने SWE-1.5 ship किया। OpenAI ने agentic coding market को अपने बिना आगे जाते देखा और respond किया। Solid response — लेकिन response, lead नहीं। दो महीने बाद, Claude की position meaningfully हिली नहीं। Coding agent wars में tooling और workflow integration matter करता निकला, सिर्फ raw model capability नहीं।

Pricing पूरे package में सबसे sharp decision है: $1.75 per million input tokens (एक token लगभग अंग्रेज़ी के एक शब्द का ¾ होता है — AI इसी से text measure और bill करता है) और $14 per million output tokens। Base GPT-5.2 के बराबर। कोई premium tier नहीं, कोई upsell नहीं। ये उन सब competitors पर direct attack है जो coding-specific models के लिए extra charge करते हैं, और ये टिका हुआ है। Windsurf को conversation में बने रहने के लिए मार्च भर SWE-1.5 मुफ्त देना पड़ा — और वो भी पूरी तरह काम नहीं आया।

One-model-fits-all का ज़माना officially खत्म हो गया। OpenAI का purpose-built coding derivative ship करना उसी बात की पुष्टि है जो market पहले से समझ चुका था: autonomously code लिखना chatting से fundamentally अलग काम है। लेकिन इन दो महीनों से गहरी सीख ये है कि context management — intelligence नहीं, benchmarks नहीं — agentic coding में असली bottleneck है। GPT-5.2-Codex ने उस boundary को आगे push किया। खत्म नहीं किया। तुम्हारा refactoring agent अब file 3 में क्या कर रहा था वो याद रखता है। File 47 तक भी याद रहेगा या नहीं — ये तुम्हारी किस्मत पर depend करता है।