Tu herramienta de code review examina cada PR con el mismo manual. ¿Formato? Listo. ¿Convenciones de nombres? Listo. ¿CVEs conocidos? Listo. Da igual si un dev junior escribió el código a las 2 AM o si un agente autónomo lo generó a partir de un mensaje en Slack — mismas reglas, mismas heurísticas, misma palomita verde. Eso es como usar un detector de metales para buscar fantasmas. Técnicamente estás escaneando. En la práctica, eres inútil.

El 18 de abril, CodeRabbit lanzó análisis multi-repo — su reviewer ahora rastrea dependencias entre repositorios. Buen truco. Pero la pregunta que sigue sin hacer: ¿quién escribió este código? Tampoco la hace Copilot review, que salió a GA con su arquitectura agéntica el 5 de marzo. Tampoco Cursor 3, que lanzó su interfaz agent-first el 2 de abril. Tampoco nada más en el mercado. Ninguna herramienta ajusta su estrategia de revisión dependiendo de si el autor es de carbono o de silicio.

Esto no es un matiz filosófico. Es un punto ciego estructural. El propio estudio de CodeRabbit de diciembre 2025 con 470 PRs lo deja claro: los PRs escritos por IA traen 75% más bugs de lógica y corrección y producen 3 veces más problemas de legibilidad. Pero los bugs que los reviewers de IA realmente detectan — formato, orden de imports, nombres — son los bugs que cometen los humanos. El código de IA alucina llamadas a API sintácticamente perfectas hacia endpoints que no existen. Escribe suites de tests que validan los supuestos de la propia implementación en lugar de la spec. Produce lógica de negocio que compila, pasa cada check automatizado, y silenciosamente hace lo incorrecto. El modo de fallo y el método de detección ni siquiera están en el mismo edificio.

La Cloud Security Alliance reportó el 4 de abril que los CVEs atribuidos a herramientas de coding con IA saltaron de 6 en enero a 35 en marzo — un aumento de 6x en un trimestre. Mientras tanto, Qodo levantó $70M el 30 de marzo para "verificación de código". Todos construyen pattern-matchers más rápidos. Nadie construye la única feature que importa: decirle al reviewer qué tipo de código está mirando antes de que empiece a mirar.

Así se vería un review consciente del autor. Llega un PR generado por un agente. La herramienta ve el tag de autor — cursor-agent, copilot-workspace, lo que sea que firme tu bot — y cambia de playbook por completo. En vez de revisar estilo, revisa semántica: ¿esta función coincide con la spec? ¿Este test verifica comportamiento o solo refleja la implementación? ¿Esta llamada a API referencia algo que realmente existe? Esa es la brecha entre "se ve bien" y "está bien", y ahora mismo cada herramienta de review en el mercado opera exclusivamente del lado del "se ve".

Puedes simular esto manualmente hoy. Etiqueta tus PRs de agentes. Entrena a los reviewers para que ignoren las nits de formato cuando vean la etiqueta y vayan directo a verificar la intención. Pregunta "¿esto hace lo que dice el ticket?" en vez de "¿esto sigue nuestra guía de estilo?". Es tosco. También es el único enfoque que funciona hasta que alguien lance la solución real.

La ironía es brutal: la industria acaba de gastar miles de millones haciendo que la IA escriba código y la IA revise código, y la feature faltante es un solo campo de metadata. ¿Humano o máquina? Un booleano. Cada reviewer del mercado se lo salta. Cada uno califica código sin saber quién es el autor — como calificar ensayos sin saber si los escribió un estudiante o ChatGPT. Ya vimos qué tan bien funciona eso en la academia.

La próxima herramienta de review que importe no será el pattern-matcher más inteligente. Será la primera lo suficientemente honesta para preguntar quién es el autor — y cambiar todo su enfoque basándose en la respuesta.