तुम्हारा AI coding agent रात भर चलता रहा। Monday सुबह dashboard खोलते हो और वो चमक रहा है: 14 pull requests बनाए, 2,000 lines change हुईं, तीन features scaffold हो गए। Coffee पीते हुए लगता है जैसे एक junior developer फ्री में मिल गया।
फिर तुम actually code पढ़ते हो। उन PRs में से आधे ऐसे bugs fix करते हैं जो agent ने उसी session में दो commits पहले खुद introduce किए थे। एक function लिखा गया, टूटा, दोबारा लिखा गया, फिर टूटा, और पाँचवीं कोशिश में finally land हुआ। Dashboard ने हर attempt को productive work गिना।
Rework ratio में आपका स्वागत है — वो metric जिसके बारे में AI coding tools बेचने वाला कोई भी बात नहीं करना चाहता।
Agent Session के अंदर
पिछले महीने हर major coding tool ने autonomous agents ship किए। GitHub Copilot और Cursor 3 ने अप्रैल की शुरुआत में launch किया; Claude Code Routines 14 अप्रैल को आए; OpenAI Codex ने 16 अप्रैल को multi-agent workflows में expand किया। हर tool unsupervised iteration loops चलाता है — agent code लिखता है, check करता है कि काम कर रहा है या नहीं, और नहीं करता तो फिर try करता है।
वो "फिर try करता है" वाला हिस्सा — यहीं पर सारा हिसाब-किताब बिगड़ता है। यहाँ एक condensed लेकिन representative session है जिसमें agent को user authentication endpoint add करने का काम दिया गया। तैंतालीस मिनट। बारह commits:
| # | Commit message | Type |
|---|---|---|
| 1 | Add auth route handler | New work |
| 2 | Add JWT token generation | New work |
| 3 | Fix import error in auth.py | Rework |
| 4 | Add password hashing | New work |
| 5 | Fix type error in hash function | Rework |
| 6 | Rewrite auth route to fix 500 error | Rework |
| 7 | Add input validation | New work |
| 8 | Fix validation regex causing test failure | Rework |
| 9 | Fix test broken by commit 6 | Rework |
| 10 | Add rate limiting middleware | New work |
| 11 | Fix rate limiter config path | Rework |
| 12 | Clean up unused imports from iterations | Rework |
पाँच commits feature को आगे बढ़ाते हैं। सात उन problems को fix करते हैं जो agent ने उसी session में खुद create की थीं। ये 58% rework ratio है — agent की आधे से ज़्यादा मेहनत अपना ही output सुधारने में गई।
Dashboard ने report किया: 12 commits, 847 lines changed, एक feature complete। सब technically सच। सब misleading।
Rework Ratio कैसे Calculate करें
ये theoretical बात नहीं है। किसी भी repository से निकाल सकते हो जहाँ agents काम कर रहे हैं:
Rework Ratio = (उसी agent session में पहले लिखे code को modify करने वाले commits) / (session में total commits)
Agent-generated branch पर git log --diff-filter=M चलाओ। हर वो commit flag करो जो किसी ऐसी file को बदलता है जिसे agent ने उसी session में पहले touch किया था। Genuine extensions (existing file में new function add करना) को corrections (जो अभी टूटा उसे fix करना) से अलग करो। Ratio diff history में सीधा दिख जाएगा।
GitClear की April 2026 code quality report ने एक related signal measure किया — code लिखने के 72 घंटे के अंदर churn — और पाया कि AI-assisted projects में ये 7.1% चल रहा है बनाम human-only baselines में 3.2%। लेकिन ये PR merge होने के बाद का churn capture करता है — code जो ship होता है और फिर rewrite होता है। Intra-session churn, जहाँ agent अपना code तोड़ता और ठीक करता है इससे पहले कि तुम्हें pull request दिखे भी, हर existing measurement tool से invisible रहता है।
यही वो gap है। GitClear post-merge churn measure करता है। Vendor dashboards activity measure करते हैं। Agent के अपने loop के अंदर हो रहे rework को कोई measure नहीं करता।
Dashboard का झूठ
एक real team के लिए math follow करो। मान लो agents 10 engineers में 50 sessions per week चलाते हैं, average 12 commits per session। अगर typical rework ratio 55% है:
- 50 sessions x 12 commits = 600 commits/week (dashboard जो दिखाता है)
- 600 x 0.55 = 330 commits जिन्होंने कुछ भी ship नहीं किया
- 330 rework commits x ~$0.15 avg token cost = ~$50/week AI equivalent of backspacing पर फूँक दिए
Scale up करो। 100-engineer org जो agents aggressively चला रही है, $2,000–$5,000 monthly tokens में जला रही है जो zero net code generate करते हैं। Dashboard इसे "AI-assisted development" label करता है। P&L इसे waste label करता है।
जैसा इस साल कई analyses ने confirm किया है — AI-generated code per PR लगभग 1.7x ज़्यादा issues carry करता है human code के मुकाबले, incidents AI output के proportion में बढ़ते हैं, और agent reliability capability की आधी speed से grow करती है। Rework ratio इस mechanism का एक हिस्सा explain करता है: जो code पाँच internal rewrites survive करके आया है, वो पहले चार attempts के architectural scars carry करता है। Functions debugging history से shape होते हैं, design intent से नहीं।
Rework के बाद क्या बचता है
Self-correction loops हटाओ तो ज़्यादातर teams के लिए honest productivity gains लगभग 1.5–2x पर land करते हैं। Larridin के Q1 2026 productivity benchmarks में पाया गया कि engineering teams में AI usage 65% jump हुआ, लेकिन PR throughput सिर्फ़ लगभग 10% बढ़ा। Adoption और output के बीच का gap partially rework से explain होता है जो फ़र्क खा जाता है।
Hidden cost सिर्फ tokens नहीं है। हर correction cycle final code में defensive complexity add करता है। Variable names debugging history reflect करते हैं, domain concepts नहीं। Abstractions में पिछली failed attempts के guard clauses जमा हो जाते हैं। Code काम करता है, लेकिन पढ़ने में ऐसा लगता है जैसे किसी ने बार-बार अपना mind change किया — क्योंकि किया था।
वो Metric जो Procurement बदल देगी
अगले sprint planning से पहले अपने AI coding tool vendor से एक सवाल पूछो: session में agent की कितनी actions agent के अपने पिछले output को correct करती हैं?
मैंने इस महीने agents ship करने वाले सभी major tools का हर dashboard, हर analytics page, हर engineering intelligence report check किया। एक भी "new useful work" को "agent का खुद से बहस करना" से separate नहीं करता।
जो vendor सबसे पहले ये metric ship करेगा — honestly new work को self-correction से split करके — enterprise deals जीतेगा। इसलिए नहीं कि number अच्छा दिखेगा (नहीं दिखेगा), बल्कि इसलिए कि ये कुछ ऐसा demonstrate करेगा जो अभी तक किसी vendor ने offer नहीं किया: honesty — कि autonomous coding actually क्या produce करती है।
Wait करने की ज़रूरत नहीं। कोई भी agent-generated branch clone करो। Commits को order में पढ़ो। गिनो कि कितने commits वो fix करते हैं जो agent ने अभी तोड़ा।
Dashboard बोलता है 10x। Git log कुछ और कहता है। Git log पर भरोसा करो।


