Abres tu IDE, le apuntas la IA a un módulo, dices "refactoriza esto" y te vas a preparar un café. Veinte minutos después regresas y descubres que reescribió el archivo 16 de una forma que contradice todo lo que decidió en el archivo 3. La IA se olvidó. Otra vez.

Hace dos meses y medio, OpenAI dijo que habían arreglado esto. GPT-5.2-Codex se lanzó el 14 de enero con una promesa estelar: context compaction — un agente que recuerda lo que está haciendo durante sesiones largas. La comunidad de desarrollo contuvo la respiración colectivamente. Ahora estamos a finales de marzo, el ciclo de hype completó su rotación, y tenemos suficiente kilometraje real para hacer la única pregunta que importa: ¿realmente cumplió?

El pitch era convincente. Toda IA tiene una ventana de contexto — su memoria de trabajo, cuánto texto puede "ver" a la vez. Durante una sesión larga de programación, esa ventana se llena. Cuando se desborda, el modelo olvida decisiones anteriores y empieza a contradecirse. Context compaction permite que GPT-5.2-Codex comprima inteligentemente lo que hay en esa ventana — conservando lo importante, descartando el ruido. En teoría, esta es la diferencia entre un agente que maneja una tarea de 30 minutos y uno que sobrevive una maratón de refactorización de 3 horas sin amnesia.

OpenAI también integró detección de ciberseguridad — el modelo detecta vulnerabilidades durante la generación de código, no como un paso de escaneo separado. En benchmarks, GPT-5.2-Codex obtuvo las mejores puntuaciones en SWE-Bench Pro y Terminal-Bench 2.0. El soporte para Windows también recibió un impulso dedicado, lo cual tomó apenas... varios años.

Esto es lo que dos meses de uso en producción han demostrado. Context compaction funciona — parcialmente. Para sesiones de menos de una hora, la mejora es real y notable. Tu agente mantiene el hilo, recuerda decisiones arquitectónicas del archivo 3 cuando llega al archivo 16. Pero pasa de las dos horas en un codebase grande y las grietas aparecen. La compactación es con pérdida por definición — tiene que descartar algo — y el criterio del modelo sobre qué es "ruido" no siempre coincide con el tuyo. Invariantes sutiles se comprimen y desaparecen. Restricciones de tipos establecidas al inicio de la sesión se esfuman. Es mejor que el desbordamiento crudo de contexto, significativamente mejor, pero decir "resuelto" es un estirón.

¿Las afirmaciones de seguridad? Me las voy a creer completamente cuando alguien publique un reporte exhaustivo de red-team, no un comunicado de prensa. La mayoría de las vulnerabilidades del mundo real no son patrones obvios que un modelo pueda detectar — son errores arquitectónicos sutiles, bugs de timing, errores lógicos enterrados en reglas de negocio. "Detecta vulnerabilidades durante la generación" suena genial en un keynote. En producción, los bugs que realmente te hacen daño son los que ningún modelo ve venir. Los reportes de la comunidad hasta ahora sugieren que atrapa la fruta que cuelga bajo — patrones de SQL injection, problemas obvios de buffer — pero se le escapan las fallas a nivel arquitectónico que causan las brechas reales.

Estratégicamente, esto siempre fue un movimiento para alcanzar al resto, y el mercado lo trató como tal. Claude Sonnet 4.5 dominó el trono de modelos de programación durante meses antes de este lanzamiento. Cursor construyó sus propios modelos. Windsurf lanzó SWE-1.5. OpenAI vio cómo el mercado de coding agentic se iba sin ellos y respondió. Una respuesta sólida — pero una respuesta, no un liderazgo. Dos meses después, la posición de Claude no se ha erosionado de forma significativa. Las guerras de agentes de código resultaron ser sobre herramientas e integración de flujos de trabajo, no solo capacidad bruta del modelo.

El pricing sigue siendo la decisión más afilada de todo el paquete: $1.75 por millón de tokens de entrada (un token es aproximadamente ¾ de una palabra en inglés — es como la IA mide y cobra el texto) y $14 por millón de tokens de salida. Idéntico al GPT-5.2 base. Sin tier premium, sin upsell. Eso es un disparo directo a cada competidor que cobra extra por modelos específicos para programación, y ha aguantado. Windsurf tuvo que regalar SWE-1.5 gratis durante marzo solo para mantenerse en la conversación — y ni eso funcionó del todo.

La era de un-modelo-para-todo está oficialmente muerta. Que OpenAI lance un derivado específico para programación confirmó lo que el mercado ya sabía: escribir código de forma autónoma es un trabajo fundamentalmente distinto a chatear. Pero la lección más profunda de estos dos meses es que la gestión de contexto — no la inteligencia, no los benchmarks — es el verdadero cuello de botella en el coding agentic. GPT-5.2-Codex empujó esa frontera hacia adelante. No la eliminó. Tu agente de refactorización ahora recuerda lo que estaba haciendo en el archivo 3. Si todavía se acuerda para el archivo 47 depende de qué tanta fe le tengas.