Seu agente de código AI rodou a noite inteira. Você abre o dashboard na segunda de manhã e ele brilha: 14 pull requests criados, 2.000 linhas alteradas, três features estruturadas. Você toma seu café se sentindo como se tivesse contratado um dev júnior de graça.
Aí você lê o código de verdade. Metade daqueles PRs contém correções pra bugs que o próprio agente introduziu dois commits antes na mesma sessão. Uma função foi escrita, quebrada, reescrita, quebrada de novo e finalmente chegou num estado aceitável na quinta tentativa. O dashboard contou cada tentativa como trabalho produtivo.
Bem-vindo ao rework ratio — a métrica que ninguém que te vende ferramentas de código com IA quer mencionar.
Por Dentro de uma Sessão de Agente
No último mês, toda ferramenta de código relevante lançou agentes autônomos. GitHub Copilot e Cursor 3 lançaram os deles no início de abril; Claude Code Routines veio em 14 de abril; OpenAI Codex expandiu pra workflows multi-agente em 16 de abril. Cada ferramenta roda loops de iteração sem supervisão — o agente escreve código, verifica se funciona e tenta de novo se não funcionar.
É nesse "tenta de novo" que a contabilidade desmorona. Aqui vai uma sessão condensada mas representativa de um agente encarregado de adicionar um endpoint de autenticação de usuário. Quarenta e três minutos. Doze commits:
| # | Mensagem do commit | Tipo |
|---|---|---|
| 1 | Add auth route handler | Trabalho novo |
| 2 | Add JWT token generation | Trabalho novo |
| 3 | Fix import error in auth.py | Retrabalho |
| 4 | Add password hashing | Trabalho novo |
| 5 | Fix type error in hash function | Retrabalho |
| 6 | Rewrite auth route to fix 500 error | Retrabalho |
| 7 | Add input validation | Trabalho novo |
| 8 | Fix validation regex causing test failure | Retrabalho |
| 9 | Fix test broken by commit 6 | Retrabalho |
| 10 | Add rate limiting middleware | Trabalho novo |
| 11 | Fix rate limiter config path | Retrabalho |
| 12 | Clean up unused imports from iterations | Retrabalho |
Cinco commits fazem a feature avançar. Sete corrigem problemas que o próprio agente criou na mesma sessão. Isso é um rework ratio de 58% — mais da metade do esforço do agente gasto corrigindo o próprio trabalho.
O dashboard reportou 12 commits, 847 linhas alteradas, uma feature completa. Tudo tecnicamente verdade. Tudo enganoso.
Como Calcular o Rework Ratio
Isso não é teoria. Você pode extrair de qualquer repositório onde agentes operam:
Rework Ratio = (commits que modificam código escrito anteriormente na mesma sessão do agente) ÷ (total de commits na sessão)
Rode git log --diff-filter=M numa branch gerada por agente. Marque cada commit que altera um arquivo que o agente já tocou na mesma sessão. Separe extensões genuínas (adicionar uma nova função num arquivo existente) de correções (consertar o que acabou de quebrar). O ratio está ali mesmo no histórico de diffs.
O relatório de qualidade de código da GitClear de abril de 2026 mediu um sinal relacionado — churn de código dentro de 72 horas após a escrita — e encontrou 7,1% em projetos assistidos por IA contra 3,2% em projetos só com humanos. Mas isso captura churn depois do merge do PR — código que vai pra produção e depois é reescrito. O churn intra-sessão, onde o agente quebra e conserta o próprio código antes de você ver o pull request, permanece invisível para toda ferramenta de medição existente.
Esse é o gap. GitClear mede churn pós-merge. Dashboards de vendors medem atividade. Ninguém mede o retrabalho acontecendo dentro do próprio loop do agente.
A Mentira do Dashboard
Acompanhe a matemática pra um time real. Digamos que seus agentes rodem 50 sessões por semana com 10 engenheiros, fazendo em média 12 commits por sessão. Se o rework ratio típico é 55%:
- 50 sessões × 12 commits = 600 commits/semana (o que o dashboard mostra)
- 600 × 0,55 = 330 commits que não produziram nada que foi pra produção
- 330 commits de retrabalho × ~$0,15 de custo médio em tokens = ~$50/semana queimados no equivalente de IA apertando backspace
Escala isso. Uma empresa com 100 engenheiros rodando agentes agressivamente queima entre $2.000 e $5.000 por mês em tokens que geram zero código líquido. O dashboard chama isso de "desenvolvimento assistido por IA". O P&L chama de desperdício.
Como múltiplas análises confirmaram este ano — código gerado por IA carrega cerca de 1,7× mais issues por PR do que código humano, incidentes crescem proporcionalmente ao output de IA, e a confiabilidade dos agentes cresce na metade da velocidade das suas capacidades. O rework ratio explica parte do mecanismo: código que sobreviveu a cinco reescritas internas carrega as cicatrizes arquiteturais das quatro primeiras tentativas. Funções são moldadas pelo histórico de debugging, não pela intenção de design.
O Que Sobrevive Depois do Retrabalho
Tire os loops de autocorreção e os ganhos honestos de produtividade ficam em torno de 1,5–2× pra maioria dos times. Os benchmarks de produtividade Q1 2026 da Larridin mostraram que o uso de IA nos times de engenharia saltou 65%, mas o throughput de PRs cresceu cerca de 10%. A diferença entre adoção e output é parcialmente explicada pelo retrabalho comendo a vantagem.
O custo oculto não está só nos tokens. Cada ciclo de correção adiciona complexidade defensiva ao código final. Nomes de variáveis refletem histórico de debugging em vez de conceitos do domínio. Abstrações acumulam guard clauses de tentativas anteriores que falharam. O código funciona, mas lê como se tivesse sido escrito por alguém que ficou mudando de ideia o tempo todo — porque foi exatamente isso.
A Métrica Que Mudaria Decisões de Compra
Faça uma pergunta ao vendor da sua ferramenta de código com IA antes do próximo sprint planning: qual porcentagem das ações do agente numa sessão corrige o próprio output anterior do agente?
Eu verifiquei cada dashboard, cada página de analytics, cada relatório de inteligência de engenharia das principais ferramentas lançando agentes este mês. Nenhuma separa "trabalho novo útil" de "o agente discutindo consigo mesmo".
O primeiro vendor que entregar essa métrica — separando honestamente trabalho novo de autocorreção — ganha contratos enterprise. Não porque o número vai ser bonito (não vai), mas porque demonstra algo que nenhum vendor ofereceu até agora: honestidade sobre o que coding autônomo realmente produz.
Você não precisa esperar. Clone qualquer branch gerada por agente. Leia os commits em ordem. Conte os que corrigem o que o agente acabou de quebrar.
Seu dashboard diz 10×. Seu git log diz outra coisa. Acredite no git log.


