Tu agente de código con IA trabajó toda la noche. Abres el dashboard el lunes por la mañana y brilla: 14 pull requests creados, 2,000 líneas modificadas, tres features armados. Le das un trago a tu café sintiéndote como si hubieras contratado un junior gratis.
Después lees el código de verdad. La mitad de esos PRs contienen fixes para bugs que el agente introdujo dos commits antes en la misma sesión. Una función fue escrita, rota, reescrita, rota de nuevo, y finalmente aterrizó en el intento cinco. El dashboard contó cada intento como trabajo productivo.
Bienvenido al rework ratio — la métrica de la que nadie que te vende herramientas de código con IA quiere hablar.
Dentro de una sesión de agente
Durante el último mes, todas las herramientas de código importantes lanzaron agentes autónomos. GitHub Copilot y Cursor 3 lanzaron los suyos a principios de abril; Claude Code Routines llegó el 14 de abril; OpenAI Codex se expandió a flujos multi-agente el 16 de abril. Cada herramienta ejecuta loops de iteración sin supervisión — el agente escribe código, revisa si funciona, y lo intenta de nuevo si no.
Ese "lo intenta de nuevo" es donde la contabilidad se desmorona. Acá va una sesión condensada pero representativa de un agente encargado de agregar un endpoint de autenticación de usuarios. Cuarenta y tres minutos. Doce commits:
| # | Mensaje del commit | Tipo |
|---|---|---|
| 1 | Add auth route handler | Trabajo nuevo |
| 2 | Add JWT token generation | Trabajo nuevo |
| 3 | Fix import error in auth.py | Retrabajo |
| 4 | Add password hashing | Trabajo nuevo |
| 5 | Fix type error in hash function | Retrabajo |
| 6 | Rewrite auth route to fix 500 error | Retrabajo |
| 7 | Add input validation | Trabajo nuevo |
| 8 | Fix validation regex causing test failure | Retrabajo |
| 9 | Fix test broken by commit 6 | Retrabajo |
| 10 | Add rate limiting middleware | Trabajo nuevo |
| 11 | Fix rate limiter config path | Retrabajo |
| 12 | Clean up unused imports from iterations | Retrabajo |
Cinco commits avanzan el feature. Siete arreglan problemas que el agente creó en la misma sesión. Eso es un rework ratio del 58% — más de la mitad del esfuerzo del agente gastado corrigiendo su propio output.
El dashboard reportó 12 commits, 847 líneas cambiadas, un feature completado. Todo técnicamente cierto. Todo engañoso.
Cómo calcular el Rework Ratio
Esto no es teórico. Lo puedes extraer de cualquier repositorio donde operen agentes:
Rework Ratio = (commits que modifican código escrito antes en la misma sesión del agente) ÷ (total de commits en la sesión)
Corre git log --diff-filter=M en una rama generada por un agente. Marca cada commit que altera un archivo que el agente ya tocó en la misma sesión. Separa extensiones genuinas (agregar una función nueva a un archivo existente) de correcciones (arreglar lo que se acaba de romper). El ratio está ahí mismo en el historial de diffs.
El reporte de calidad de código de GitClear de abril 2026 midió una señal relacionada — churn de código dentro de las 72 horas posteriores a su escritura — y encontró que estaba en 7.1% para proyectos asistidos por IA versus 3.2% para baselines solo humanos. Pero eso captura churn después de que el PR se mergea — código que se shippea y luego se reescribe. El churn intra-sesión, donde el agente rompe y arregla su propio código antes de que tú siquiera veas el pull request, permanece invisible para toda herramienta de medición existente.
Ese es el vacío. GitClear mide churn post-merge. Los dashboards de los vendors miden actividad. Nadie mide el retrabajo que ocurre dentro del loop del propio agente.
La mentira del dashboard
Sigue las cuentas para un equipo real. Digamos que tus agentes corren 50 sesiones por semana con 10 ingenieros, promediando 12 commits por sesión. Si el rework ratio típico es del 55%:
- 50 sesiones × 12 commits = 600 commits/semana (lo que muestra el dashboard)
- 600 × 0.55 = 330 commits que no produjeron nada que se shippeara
- 330 commits de retrabajo × ~$0.15 costo promedio en tokens = ~$50/semana quemados en el equivalente IA de darle backspace
Escala eso. Una organización de 100 ingenieros corriendo agentes agresivamente quema entre $2,000 y $5,000 mensuales en tokens que generan cero código neto. El dashboard etiqueta esto como "desarrollo asistido por IA". El P&L lo etiqueta como desperdicio.
Como múltiples análisis han confirmado este año — el código generado por IA trae aproximadamente 1.7× más issues por PR que el código humano, los incidentes suben en proporción al output de IA, y la confiabilidad de los agentes crece a la mitad de la velocidad de sus capacidades. El rework ratio explica parte del mecanismo: código que sobrevivió cinco reescrituras internas carga las cicatrices arquitectónicas de los primeros cuatro intentos. Las funciones terminan moldeadas por su historial de debugging, no por intención de diseño.
Lo que sobrevive después del retrabajo
Quita los loops de autocorrección y las ganancias honestas de productividad aterrizan alrededor de 1.5–2× para la mayoría de los equipos. Los benchmarks de productividad Q1 2026 de Larridin encontraron que el uso de IA en equipos de ingeniería saltó 65%, pero el throughput de PRs creció apenas un 10%. La brecha entre adopción y output se explica parcialmente por el retrabajo comiéndose la diferencia.
El costo oculto no es solo tokens. Cada ciclo de corrección agrega complejidad defensiva al código final. Los nombres de variables reflejan el historial de debugging en lugar de conceptos del dominio. Las abstracciones acumulan guard clauses de intentos fallidos anteriores. El código funciona, pero se lee como si lo hubiera escrito alguien que no paraba de cambiar de opinión — porque así fue.
La métrica que cambiaría las compras
Hazle una pregunta a tu vendor de herramientas de código con IA antes del próximo sprint planning: ¿qué porcentaje de las acciones del agente en una sesión corrigen el output previo del propio agente?
Revisé cada dashboard, cada página de analytics, cada reporte de engineering intelligence de las principales herramientas que están shippeando agentes este mes. Ninguna separa "trabajo nuevo útil" de "el agente discutiendo consigo mismo".
El primer vendor que muestre esta métrica — dividiendo honestamente trabajo nuevo de autocorrección — gana los contratos enterprise. No porque el número vaya a verse halagador (no lo hará), sino porque demuestra algo que ningún vendor ha ofrecido hasta ahora: honestidad sobre lo que el coding autónomo realmente produce.
No necesitas esperar. Clona cualquier rama generada por un agente. Lee los commits en orden. Cuenta los que arreglan lo que el agente acaba de romper.
Tu dashboard dice 10×. Tu git log dice otra cosa. Créele al git log.


