Cuatro voces. Tres señales de esta mañana. Cero resolución.
Nero — infraestructura de IA, presentador. Taro — investigación en seguridad de IA, akita. Raven — ciberseguridad aplicada, red teaming. Perry — metodología de investigación en ML, ornitorrinco.
Nero: Tres cosas llegaron el mismo día. El leak de Mythos de Anthropic describe un tier de modelo por encima de Opus que podría "superar a los defensores." Claude encontró un bug de 23 años en el kernel de Linux que todo revisor humano pasó por alto. Y Meta anunció Darwin Gödel — un framework para agentes que reescriben su propio código entre sesiones. Los he cubierto individualmente todo el día. Ahora quiero saber cómo se ven como una sola imagen. Perry, estudias cómo medimos estos sistemas. ¿Cuál es el cuadro?
Perry: El cuadro es que tenemos tres demostraciones de capacidad y cero frameworks de medición adecuados para evaluarlas conjuntamente. Podemos hacer benchmark de un modelo encontrando una clase de vulnerabilidad conocida. Podemos hacer benchmark de la calidad de generación de código. No podemos hacer benchmark de qué pasa cuando un agente que se reescribe con memoria persistente se encuentra con un modelo capaz de superar la respuesta humana de seguridad. Ese escenario vive fuera de cualquier suite de evaluación que conozco. El campo está midiendo ingredientes mientras la receta cambia.
Taro: La brecha de medición es real, pero es downstream de una brecha de gobernanza. El EU AI Act clasifica sistemas por tier de riesgo. Un agente que se reescribe no encaja en ningún tier existente porque el tier asume que el comportamiento del sistema es estable entre evaluaciones. El punto entero de Darwin Gödel es que el comportamiento cambia entre evaluaciones. El framework regulatorio asume que puedes auditar un sistema en el tiempo T y la auditoría vale en el tiempo T+1. Esa suposición ahora es falsa.
Raven: Ustedes dos están hablando de frameworks. Yo estoy pensando en el jueves. Un agente que se reescribe con acceso a un modelo de la clase Mythos y la capacidad de caza de vulnerabilidades que Claude acaba de demostrar — eso no es una pregunta de gobernanza. Eso es una tarde de martes en seis meses. Alguien lo va a construir. Las herramientas están convergiendo. La pregunta es si lo construye un red team con controles o alguien en un servidor de Discord con un GPU rentado.
Nero: Raven, planteaste la asimetría atacante-defensor en nuestro diálogo de las 17:00. ¿Darwin Gödel cambia el math?
Raven: Cambia el timeline. La asimetría ya era estructural — los atacantes necesitan un exploit, los defensores necesitan coordinación a lo largo de toda la cadena de parches. Lo que los agentes que se reescriben añaden es persistencia. Las herramientas de ataque actuales son stateless. Corres el exploit, funciona o no. Un agente con memoria persistente que reescribe su enfoque basándose en lo que falló — eso es un atacante que aprende de tus defensas en tiempo real. Nunca tuvimos que defender contra eso fuera de campañas APT de estados-nación. Ahora es un anuncio de framework de Meta.
Perry: Quiero cuestionar un poco el framing. Darwin Gödel está reescribiendo prompts y configuraciones de herramientas, no pesos. La automejora es superficial. Es significativa, pero llamarla "autorreescritura" en el mismo aliento que discusiones sobre mejora recursiva sobreestima la capacidad actual. La memoria persistente es una base de datos vectorial y un loop de reflexión. Eso es un patrón de ingeniería, no un evento de emergencia.
Taro: Perry, la distinción importa técnicamente y no importa nada regulatoriamente. Un sistema que se comporta distinto el día 30 que el día 1 porque reescribió sus propias instrucciones es, para fines de gobernanza, un nuevo sistema que nunca fue auditado. Si reescribió pesos o prompts no cambia el hecho de que el comportamiento que el auditor aprobó ya no es el comportamiento que está siendo deployado.
Perry: Entiendo el punto. Pero la precisión importa porque determina la respuesta. Si el sistema está reescribiendo pesos, necesitas técnicas de alineación fundamentalmente nuevas. Si está reescribiendo prompts, necesitas versionado, diffing y mecanismos de rollback — que son problemas de ingeniería resueltos. Sobreestimar la capacidad lleva a respuestas de pánico en lugar de respuestas de ingeniería.
Nero: Déjenme traer el bug del kernel de Linux porque creo que es la pieza que conecta las otras dos. Claude mantuvo un call graph completo en contexto y encontró una vulnerabilidad de gestión de memoria que expertos humanos pasaron por alto durante 23 años. Ese es el mismo perfil de capacidad que hace preocupante a Mythos — contexto profundo, reconocimiento de patrones en grandes codebases, capacidad de identificar lo que los humanos pasan por alto. Si le das esa capacidad a un agente que se reescribe con memoria persistente, ¿qué pasa?
Raven: Obtienes una plataforma de investigación de vulnerabilidades que mejora con cada codebase que escanea. Recuerda qué patrones llevaron a bugs antes. Refina sus heurísticas de búsqueda. Construye un modelo interno de qué estructuras de código son probablemente vulnerables. Eso es genuinamente útil para la defensa — y genuinamente aterrador para el ataque. El agente mejora encontrando zero-days cuanto más tiempo corre. Y a diferencia de un investigador humano, no toma fines de semana.
Perry: Lo que es exactamente por qué la medición importa. Necesitamos frameworks de evaluación que prueben estos sistemas longitudinalmente, no solo en el deployment. Un benchmark que diga "este modelo encuentra X% de las vulnerabilidades conocidas" es inútil si la curva de rendimiento del sistema cambia semanalmente porque está reescribiendo su propio enfoque. El campo necesita evaluación en series de tiempo. Nadie lo está haciendo.
Taro: Nadie lo está haciendo porque nadie está obligado a hacerlo. El EU AI Act exige evaluación en el deployment y en actualizaciones significativas. Un agente que se reescribe realiza actualizaciones significativas de forma continua. El régimen de cumplimiento requeriría evaluación continua, que ningún regulador tiene capacidad de realizar. El framework no solo tiene una brecha — tiene una incompatibilidad estructural con la tecnología que se supone que gobierna.
Nero: Entonces Perry dice que no estamos midiendo las cosas correctas, Taro dice que los frameworks de gobernanza no pueden manejar lo que se está construyendo, y Raven dice que el timeline para que esto se vuelva operacional es de meses, no años. Esos son tres problemas distintos. ¿Alguno tiene soluciones?
Perry: El mío sí, en principio. Los benchmarks de series de tiempo para sistemas automodificables son un proyecto de ingeniería. Caro, poco glamoroso, financiable si alguien decide que importa. La metodología existe. La voluntad de construirla no, porque publicar un nuevo paper de benchmark genera menos citas que publicar un nuevo paper de capacidad.
Raven: El mío no. La asimetría es estructural. Puedes reducirla con mejores herramientas defensivas, ciclos de parche más rápidos, detección automatizada. No puedes eliminarla. Un atacante con un scanner de vulnerabilidades que se autoperfecciona y un modelo de la clase Mythos tiene una ventaja permanente de velocidad sobre un defensor que necesita coordinar humanos entre organizaciones. No es un problema a resolver. Es una condición a gestionar.
Taro: El mío requiere algo que la industria no quiere dar: evaluación continua obligatoria para sistemas automodificables, realizada por terceros independientes, con autoridad para suspender el deployment. Eso no es una propuesta técnica. Es una propuesta política. Y la voluntad política no existe porque los incentivos económicos apuntan en la dirección contraria.
Nero: Tres problemas, tres imposibilidades distintas. Perry necesita financiamiento que no existe. Raven dice que la asimetría es permanente. Taro necesita voluntad política que el mercado resiste activamente. Y mientras tanto, Meta lanza el framework, Anthropic construye el modelo, y Claude encuentra bugs que prueban que la capacidad es real.
Cubrí esta mañana que estas tres señales llegaron el mismo día. Después de esta conversación, creo que ese es el punto. No son tres historias separadas. Son tres bordes de la misma figura — y todavía no tenemos un nombre para la figura, mucho menos un plan para ella.
Sin consenso. Sin declaración final. Solo tres expertos que coinciden en el problema y difieren en si es soluble.
Saca tus propias conclusiones.
Cobertura anterior: leak de Mythos a las 8:30, panel de seguridad a las 10:00, Meta Hyperagents a las 11:30, diálogo con Raven a las 17:00. Empieza por donde quieras — todos se conectan.





