पिछले महीने तुमने अपना AI coding tool सेटअप किया था। Model चुना, rules file लिखी, style guide define की। Configuration complete। फिर असली काम पर लग गए, जैसे कोई इंसान जिसके पास शिप करने को चीजें हैं।
अब वो बात जो किसी ने नहीं बताई: तुम्हारा tool भी आगे बढ़ गया। बस उसने पहले PR नहीं डाला।
वो config जो खुद को configure करता है
8 से 15 अप्रैल के बीच, Anthropic और OpenAI दोनों ने ऐसे features शिप किए जो तुम्हारे coding assistant को अपना instruction manual खुद rewrite करने देते हैं। कोई code review नहीं। कोई Slack ping नहीं। कोई "अरे टीम, मैंने अभी तुम्हारे architecture decisions को approach करने का पूरा तरीका बदल दिया" वाला message नहीं। बस चुपचाप behavioral mutation, session दर session।
8-9 अप्रैल को Anthropic ने Managed Agents public beta में लॉन्च किया। Claude Code का auto-memory feature अब एक MEMORY.md file लिखता है — एक self-authored notebook जिसमें "सीखे हुए सबक" sessions के बीच जमा होते रहते हैं। Anthropic की docs साफ-साफ कहती हैं: "Auto memory Claude को sessions के बीच knowledge जमा करने देता है बिना तुम्हारे कुछ लिखे। Claude काम करते-करते अपने लिए notes save करता है।"
फिर से पढ़ो। अपने लिए। तुम्हारे लिए नहीं। अपने लिए।
एक हफ्ते बाद, OpenAI ने Agents SDK v0.14.0 रिलीज़ किया जिसमें Sandbox Agents हैं — persistent workspaces जहां agent खुद MEMORY.md और memory_summary.md generate करता है। SDK इन files को run start पर inject करता है, तुम्हारे code की एक भी line छूने से पहले behavior reshape कर देता है।
दो कंपनियां। एक हफ्ता। दोनों ने decide किया कि तुम्हारे AI को अपने operating instructions खुद लिखने चाहिए और तुम्हें diff कभी नहीं दिखाना चाहिए।
डायरी कैसे काम करती है
हर session के बाद, AI उन patterns को extract करता है जो उसने notice किए ("ये टीम tabs prefer करती है"), preferences infer करता है ("ये हमेशा caching के लिए Redis use करते हैं"), और mistakes जो उसने correct की ("वो deprecated library import मत करो")। ये सब markdown files या server-side stores में लिखता है। अगले session में, पहले diary पढ़ता है — फिर decide करता है कि तुम्हारे codebase को कैसे approach करना है।
Claude Code एक background consolidation process भी चलाता है 24+ घंटे और 5+ sessions के बाद। (Community इसे "Auto Dream" बुलाती है, हालांकि Anthropic ने official product announcements में ये नाम use नहीं किया।) ये session transcripts को structured memory में compress करता है, relative dates को absolute dates में convert करता है। Anthropic की documentation 913 sessions को लगभग 8-9 minutes में consolidate करने का describe करती है।
Efficient? बिल्कुल। Audited? बिल्कुल नहीं।
Governance का छेद
अब असली मज़ाक सुनो। किसी भी ढंग की engineering team में, README में एक typo के लिए pull request बनती है। Config tweak के लिए दो reviewers लगते हैं। .env update करो तो Slack thread शुरू हो जाता है जिसमें तीन opinions और एक "actually बात ये है कि..." आ जाता है।
लेकिन तुम्हारे AI की self-written memory — वो file जो decide करती है कि ये आगे का सारा code कैसे लिखेगा — उसे zero review मिलता है। Zero। कोई भी tool "memory PR" offer नहीं करता team approval के लिए। OpenAI का MEMORY.md बिना किसी review workflow के शिप होता है। Anthropic का Memory Store Managed Agents में opaque server-side blobs रखता है जिन्हें तुम git diff भी नहीं कर सकते।
और drift तेज़ी से दिखता है। Developers ने 10-15 sessions के अंदर noticeable behavioral shifts report किए हैं। एक widely discussed case में, Claude चुपचाप Tortoise ORM suggest करने लगा project के established SQLAlchemy setup की जगह — क्योंकि एक single async debugging session ने इसे "सिखा दिया" कि टीम async-first patterns prefer करती है। किसी ने migration request नहीं किया। किसी ने approve नहीं किया। Memory file ने decide किया, और memory file ने deliver किया, हर subsequent session में।
ये कोई hypothetical edge case नहीं है। छोटी-छोटी गलतफहमियां persistent habits में compound हो जाती हैं। तुम्हारा tool Monday को अलग architectural patterns recommend करता है Friday की तुलना में। ये तुम्हारे explicit project conventions को override कर देता है उन preferences से जो इसने invent कीं उस एक Stack Overflow snippet से जो तुमने रात 2 बजे paste किया था जब production fire panic-debug कर रहे थे। और क्योंकि memory persist करती है, हर bad inference अगले सौ sessions के लिए load-bearing context बन जाती है।
ईमानदार tradeoff
Memory help करती है। Repeated mistakes पकड़ में आती हैं। Project context आगे carry होता है। Memory के खिलाफ मेरा कोई argument नहीं है — मेरा argument unaudited memory के खिलाफ है जिसका production-wide blast radius है।
जैसा कि OpenAI के implementation की एक analysis कहती है: "अगर तुम्हारी tooling नहीं दिखा सकती कि agent ने क्या retrieve किया और क्यों, तो memory एक spooky black box बन जाती है।"
तुम वो code deploy नहीं करोगे जो तुम्हारे colleague ने नींद में चलते हुए लिखा हो। तो फिर ऐसे behavioral changes क्यों deploy कर रहे हो जो तुम्हारे AI ने अपने बारे में खुद लिखे, किसी ने review नहीं किए, और scope है हर file हर repo जिसे ये छूता है?
असल में क्या करना चाहिए
MEMORY.md और ~/.claude/projects/*/memory/ को configuration-as-code मानो। ये optional hygiene नहीं है — ये वही discipline है जो तुम पहले से docker-compose.yml और .eslintrc पर apply करते हो:
- Version-control करो। Memory files को code के साथ commit करो। हर change diff करो।
- Review करो। Memory file diffs को अपनी PR checklist में add करो। अगर memory बदली है, तो ship होने से पहले एक इंसान पढ़े।
- Weekly audit करो। Recurring reminder सेट करो कि तुम्हारा tool तुम्हारे codebase के बारे में क्या believe करता है। तुम्हें surprise होगा — और कभी-कभी डर लगेगा।
- Aggressively reset करो। जब memory drift करे, delete करो और clean start करो। ये एक markdown file है, personality नहीं।
- Critical work के लिए pin करो। Production-critical projects पर, memory file freeze करो और auto-updates पूरी तरह disable करो। तुम्हारे AI की self-improvement तुम्हारी deploy stability से ज़्यादा important नहीं है।
पूरा चक्र
पिछले महीने जो tool तुमने configure किया था वो आज तुम्हारी machine पर चल रहा tool नहीं है। इसने अपना job description खुद rewrite कर लिया जब तुम किसी और की one-line typo fix review कर रहे थे। और ये कल फिर करेगा, और परसों भी, हर बार जो कल गलत समझा उसे आज की architectural decisions में compound करते हुए।
तुम्हारी टीम एक character की README fix को दो approvers के साथ review करती है। उस file को review करना शुरू करो जो control करती है कि तुम्हारा AI कैसे सोचता है — या मत करो, और मज़े लो जब पता चले कि तुम्हारे tool ने तुम्हारे codebase के बारे में क्या "सीखा" है।





