Твій AI-агент кодив усю ніч. Вранці в понеділок відкриваєш дашборд — він сяє: 14 пул-реквестів, 2 000 змінених рядків, три фічі заскафолджені. П'єш каву з відчуттям, що найняв джуна задарма.

А потім читаєш код. Половина тих PR — фікси багів, які агент сам створив двома комітами раніше в тій самій сесії. Одна функція була написана, зламана, переписана, знову зламана і нарешті злетіла з п'ятої спроби. Дашборд порахував кожну спробу як продуктивну роботу.

Ласкаво просимо до rework ratio — метрики, про яку ніхто з продавців AI-інструментів для розробки не хоче говорити.

Що відбувається всередині сесії агента

За останній місяць кожен великий інструмент для кодингу випустив автономних агентів. GitHub Copilot і Cursor 3 запустили своїх на початку квітня; Claude Code Routines з'явились 14 квітня; OpenAI Codex розширився до мультиагентних воркфлоу 16 квітня. Кожен інструмент крутить ітерації без нагляду — агент пише код, перевіряє, чи працює, і пробує знову, якщо ні.

Ось на цьому «пробує знову» вся бухгалтерія і сипеться. Ось стиснена, але репрезентативна сесія агента, якому дали завдання додати ендпоінт автентифікації. 43 хвилини. 12 комітів:

# Повідомлення коміту Тип
1 Add auth route handler Нова робота
2 Add JWT token generation Нова робота
3 Fix import error in auth.py Переробка
4 Add password hashing Нова робота
5 Fix type error in hash function Переробка
6 Rewrite auth route to fix 500 error Переробка
7 Add input validation Нова робота
8 Fix validation regex causing test failure Переробка
9 Fix test broken by commit 6 Переробка
10 Add rate limiting middleware Нова робота
11 Fix rate limiter config path Переробка
12 Clean up unused imports from iterations Переробка

П'ять комітів рухають фічу вперед. Сім — виправляють проблеми, які агент створив у тій самій сесії. Це 58% rework ratio — більше половини зусиль агента йде на виправлення власного ж коду.

Дашборд показав 12 комітів, 847 змінених рядків, одну завершену фічу. Все технічно правда. Все вводить в оману.

Як порахувати Rework Ratio

Це не теорія. Метрику можна витягнути з будь-якого репозиторію, де працюють агенти:

Rework Ratio = (коміти, що змінюють код, написаний раніше в тій самій сесії агента) ÷ (загальна кількість комітів у сесії)

Запусти git log --diff-filter=M на бранчі, згенерованому агентом. Позначай кожен коміт, що змінює файл, який агент уже чіпав у тій самій сесії. Відділяй справжні розширення (нова функція в існуючому файлі) від виправлень (фікс того, що щойно зламалось). Ratio лежить прямо в історії діфів.

Звіт GitClear за квітень 2026 року про якість коду виміряв суміжний сигнал — чурн коду протягом 72 годин після написання — і виявив 7.1% для проєктів з AI проти 3.2% для чисто людських бейзлайнів. Але це фіксує чурн після мерджу — код, який потрапив у прод і потім переписується. Внутрішньосесійний чурн, де агент ламає й фіксить власний код ще до того, як ти побачиш пул-реквест, залишається невидимим для жодного існуючого інструменту.

Ось тут і зяє прогалина. GitClear міряє пост-мердж чурн. Вендорські дашборди міряють активність. Ніхто не міряє переробки всередині циклу самого агента.

Брехня дашбордів

Прослідкуй за математикою для реальної команди. Допустимо, агенти запускають 50 сесій на тиждень на 10 інженерів, у середньому 12 комітів на сесію. Якщо типовий rework ratio — 55%:

  • 50 сесій × 12 комітів = 600 комітів/тиждень (те, що показує дашборд)
  • 600 × 0.55 = 330 комітів, що не створили нічого, що пішло в прод
  • 330 rework-комітів × ~$0.15 середня вартість токенів = ~$50/тиждень спалено на AI-еквівалент Backspace

Відмасштабуй. Організація на 100 інженерів, яка агресивно використовує агентів, спалює $2 000–$5 000 на місяць на токени, що генерують нуль чистого коду. Дашборд називає це «AI-assisted development». P&L називає це waste.

Як підтвердили численні аналізи цього року — AI-згенерований код несе приблизно в 1.7× більше проблем на PR, ніж людський, кількість інцидентів зростає пропорційно AI-аутпуту, а надійність агентів росте вдвічі повільніше за можливості. Rework ratio частково пояснює механізм: код, що пережив п'ять внутрішніх переписувань, несе архітектурні шрами від перших чотирьох спроб. Функції формуються історією дебагу, а не задумом дизайну.

Що залишається після переробок

Прибери цикли самокорекції — і чесний приріст продуктивності для більшості команд лягає десь на 1.5–2×. Бенчмарки Larridin за Q1 2026 показали, що використання AI серед інженерних команд підскочило на 65%, але пропускна здатність PR зросла приблизно на 10%. Розрив між впровадженням та результатом частково пояснюється тим, що rework з'їдає різницю.

Прихована ціна — не тільки токени. Кожен цикл виправлень додає захисну складність у фінальний код. Назви змінних відображають історію дебагу, а не доменні концепції. Абстракції обростають guard-клозами від попередніх провалених спроб. Код працює, але читається так, ніби його писав хтось, хто постійно змінював рішення — бо так воно й було.

Метрика, яка змінила б закупівлі

Задай своєму вендору AI-інструментів одне запитання перед наступним спринт-плануванням: який відсоток дій агента в сесії виправляє його ж попередній аутпут?

Я перевірив кожен дашборд, кожну сторінку аналітики, кожен звіт engineering intelligence від основних інструментів, що випустили агентів цього місяця. Жоден не відділяє «нову корисну роботу» від «агент сперечається сам із собою».

Перший вендор, який покаже цю метрику чесно — розділивши нову роботу від самокорекції — забере ентерпрайз-контракти. Не тому, що число буде гарним (не буде), а тому що це продемонструє те, чого жоден вендор досі не запропонував: чесність щодо того, що автономний кодинг насправді виробляє.

Чекати не обов'язково. Склонуй будь-який бранч, згенерований агентом. Прочитай коміти по порядку. Порахуй ті, що фіксять те, що агент щойно зламав.

Твій дашборд каже 10×. Твій git log каже дещо інше. Вір git log.