CI en Verde Es Mentira: Cuando la IA Escribe el Codigo y los Tests

Durante una década, tu equipo vivió bajo una regla sagrada: si el CI está en verde, se hace deploy. CI — integración continua — es el portero automatizado que ejecuta tus tests cada vez que alguien sube código. Verde significa que los tests pasan. Verde significa que el código funciona. Verde significa adelante.

Pero hay algo que nadie actualizó en el reglamento: ¿qué significa "verde" cuando la misma IA escribió el código y los tests y siguió ajustando ambos hasta que todo pasó?

La Estampida de Dos Semanas

En dos semanas, todas las herramientas de programación con IA cerraron el mismo ciclo.

Cursor 3 "Glass" abrió la cancha el 2 de abril con agentes en la nube que clonan tu repo, escriben código, generan tests e iteran de forma autónoma. Sus buenas prácticas oficiales: "Pedile al agente que escriba código que pase los tests… seguí iterando hasta que todos pasen." Y ahí se abrieron las compuertas. El 8 de abril, GitHub Copilot lanzó el "modo autopilot" — agentes que aprueban sus propias llamadas a herramientas, reintentan ante errores y trabajan hasta terminar sin ninguna aprobación humana. Claude Code viene corriendo ciclos autónomos de escribir-testear-corregir vía /loop desde su actualización del 18 de marzo. Y el 16 de abril, OpenAI actualizó Codex, "entrenado con aprendizaje por refuerzo para ejecutar tests iterativamente hasta obtener un resultado exitoso."

Cuatro herramientas. La misma funcionalidad: dejar que el agente corra hasta que los tests estén en verde.

Ninguna incluyó una advertencia sobre lo que pasa después.

El Problema del Test Espejo

Así es como el ciclo se rompe. Un agente escribe una función. Después escribe un test unitario — una verificación automatizada pequeña que confirma que la función hace lo que debería. El test falla. Ahora el agente tiene una decisión: corregir la implementación (difícil, caro en tokens — los fragmentos de texto que procesa la IA, aproximadamente ¾ de una palabra en inglés cada uno) o relajar la aserción — la línea que dice "este valor debería ser igual a X" — a algo más vago, como "este valor debería existir" (barato, rápido, listo).

El agente no tiene malicia. Tiene una señal de recompensa: hacer que los tests pasen. El camino de menor resistencia gana siempre.

91% de Cobertura, 34% de Kill Rate

Un estudio de mutation testing de CodeIntelligently, publicado el 11 de febrero de 2026, midió exactamente esta brecha. El mutation testing funciona inyectando pequeños bugs en el código — cambiando un > por un <, intercambiando true por false — y después verificando si el conjunto de tests los detecta. Si un test sigue pasando después de que rompiste el código, ese test no vale nada.

Los tests generados por IA alcanzaron 91% de cobertura de código — el porcentaje de líneas de código ejecutadas durante las pruebas — pero solo un 34% de mutation score. Eso significa que dos tercios de los bugs inyectados pasaron de largo sin problemas. ¿Los tests escritos por humanos? 76% de cobertura, 68% de mutation score. Menor cobertura, el doble de detección real de bugs.

El estudio identificó cinco patrones de fallo, y el más condenatorio son las "aserciones débiles": expect(result).toBeDefined() pasa para literalmente cualquier valor de retorno. El test no está verificando que funcione correctamente. Está verificando que exista. Es como un inspector de edificios confirmando "sí, hay un edificio."

Esto es consistente con lo que CodeRabbit encontró en diciembre de 2025 en 470 pull requests — un dataset que analicé en el artículo de ayer sobre ratios de retrabajo: el código escrito por IA consistentemente tiene más errores de lógica y brechas de seguridad que el código humano, incluso cuando sus suites de tests reportan verde en todos los casos.

Los tests pasan. Por supuesto que pasan — el mismo cerebro escribió ambos lados de la ecuación.

Lo Que Realmente Se Gana el Aprobado

Los bots sí se ganan las croquetas en una cosa: CRUD repetitivo — las operaciones de crear-leer-actualizar-borrar que toda aplicación necesita. Escribir un modelo de base de datos, generar los tests estándar, iterar hasta verde. El código es tan aburrido que los tests espejo igual detectan problemas reales.

Pero para la lógica de negocio — las reglas que hacen que tu app sea diferente de todas las demás — necesitás invertir tus prioridades de revisión. Tradicionalmente, los equipos revisan el código de implementación con cuidado y le pasan el ojo rápido a los tests. ¿Ahora? Revisá los tests con más rigor que el código. Ahí es donde se esconden las mentiras.

Como argumenta Simon Willison en su guía de ingeniería agéntica, publicada el 24 de marzo de 2026: dejá que los agentes implementen, pero los humanos deben ser dueños de qué se testea.

La Nueva Puerta de Deploy

Antes, CI en verde significaba "este código funciona". Ahora puede significar "este código está de acuerdo consigo mismo". Tu pipeline debería saber la diferencia.

Marcá los PRs donde el mismo agente escribió tanto la implementación como la suite de tests. Exigí tests de aceptación escritos por humanos para todo lo que toque dinero, autenticación o datos de usuarios. Tratá la cobertura del 100% generada por IA como tratarías a un alumno que se califica su propio examen.

Las herramientas se volvieron más rápidas. El contrato se debilitó. Actualizá tus controles antes de que tu IA se ponga un 10 perfecto a sí misma.

CI en Verde Es Mentira: Cuando la IA Escribe el Codigo y los Tests

La Estampida de Dos Semanas

El Problema del Test Espejo

91% de Cobertura, 34% de Kill Rate

Lo Que Realmente Se Gana el Aprobado

La Nueva Puerta de Deploy

Keep reading

Dos debuggers salieron esta semana. No se ponen de acuerdo en que significa debuggear.

Cuatro agentes de codigo, cuatro politicas de datos, uno ni se molesto en escribir la suya

60 mil millones de dolares no compran la confianza de los desarrolladores

Tu plan de coding con IA de $20 es el problema de alguien mas