Eliges tu herramienta de coding con IA revisando el leaderboard. SWE-bench te decía qué modelo arreglaba más bugs. Promptfoo te dejaba correr comparaciones lado a lado. El Agents SDK te daba un framework para construir. Tres pilares de infraestructura de comparación. Tres verificaciones independientes de quién es realmente el mejor.
Cubrí cada una de estas historias por separado esta semana — el colapso de SWE-bench, la adquisición de Promptfoo, la actualización del Agents SDK. Por separado, cada una tenía sentido. Juntas, revelan algo que ninguna de las piezas individuales capturó.
La versión oficial
OpenAI hizo tres movimientos sin relación entre sí. Publicaron una crítica legítima de un benchmark defectuoso. Adquirieron una herramienta open-source de evaluación y la mantuvieron con licencia MIT (cualquiera puede copiar, modificar, redistribuir). Hicieron su SDK agnóstico en cuanto a modelos. Cada movimiento se defiende por sí solo. Cada movimiento beneficia a los desarrolladores.
Pero en realidad
Esto es integración vertical del stack de evaluación. Y tiene precedente.
En 2007, Google adquirió DoubleClick — la plataforma dominante de ad-serving que medía el rendimiento publicitario de todos los proveedores, incluyendo al propio Google. La UE investigó durante años. Google prometió neutralidad. Una década después, el Departamento de Justicia de EE.UU. argumentó que Google había favorecido sistemáticamente sus propios productos publicitarios a través de esa misma infraestructura. La empresa que vendía los anuncios también operaba la herramienta que calificaba si los anuncios funcionaban.
OpenAI acaba de ejecutar el mismo playbook sobre la evaluación de modelos de IA — en siete semanas en lugar de siete años.
Tres movimientos, un patrón
Movimiento uno (23 de febrero): La auditoría de OpenAI señaló que el 59.4% de los casos de prueba de SWE-bench Verified eran defectuosos y encontró contaminación de datos de entrenamiento en todos los modelos frontier. Dejaron de reportar puntajes. La crítica tenía mérito — las tareas más difíciles de SWE-bench Pro muestran una brecha de 22 puntos respecto a los números inflados de Verified. Pero los modelos de OpenAI se habían estancado en ~80% en Verified mientras los competidores los alcanzaban. Timing conveniente.
Movimiento dos (9 de marzo): OpenAI adquirió Promptfoo — más de 350,000 desarrolladores, más del 25% de las empresas Fortune 500 — el framework de evaluación que la mayoría de los equipos usan para comparar LLMs. La regla más popular ahora le pertenece a uno de los concursantes.
Movimiento tres (15 de abril): La actualización del Agents SDK agregó soporte nativo para más de 100 LLMs competidores vía integración con LiteLLM. Cada modelo rival se convierte en un cambio de una línea en el config dentro del framework de OpenAI. El modelo se vuelve commodity; el SDK se convierte en el foso.
Qué cambia realmente para los desarrolladores
Tres cosas.
El punto de fricción se desplaza. Cuando cambiar de modelo requiere modificar una línea en un archivo de config de OpenAI, no estás "eligiendo Claude" — estás eligiendo la plataforma de OpenAI y ocasionalmente ruteando hacia Claude. Piensa en Apple construyendo la única tienda de apps y generosamente dejando que Samsung venda ahí.
Los defaults de evaluación le ganan a las opciones de evaluación. Promptfoo todavía puede testear cualquier modelo. Pero los templates por defecto, las configs recomendadas, el flujo de "getting started" — eso moldea lo que el 90% de los desarrolladores realmente prueba. Como señaló Simon Willison: "OpenAI aún no tiene mucho historial en lo que respecta a adquirir y mantener proyectos open source." La licencia MIT significa que puedes hacer fork e irte. La mayoría no lo hará. Los defaults son poderosos.
La autoridad de los benchmarks se fragmenta. SWE-bench Pro usa tareas más difíciles y menos contaminadas en múltiples lenguajes. LiveCodeBench rota los problemas para prevenir memorización. Ninguno tiene la adopción que tenía Verified. Construir confianza en un nuevo benchmark toma años. OpenAI no necesita años — necesita meses de ambigüedad.
La brecha en la contra-estrategia
Anthropic distribuye Claude Code — una herramienta directa al desarrollador que bypasea completamente los wrappers de SDKs. Google empaqueta Gemini en Android, Chrome y Workspace, creando canales de distribución que OpenAI no puede interceptar. Ambos juegan a la defensiva a través de distribución en lugar de medición.
Ninguno ha construido un estándar alternativo de evaluación. Esa es la verdadera brecha. La industria tiene modelos compitiendo, SDKs compitiendo, canales de distribución compitiendo — pero ya no tiene infraestructura de evaluación independiente, confiable y ampliamente adoptada. El viejo marcador tenía problemas genuinos de contaminación. El reemplazo aún no existe.
La pregunta incómoda
La pregunta no es si los movimientos individuales de OpenAI resisten el escrutinio. Sí lo hacen. La pregunta es si una sola empresa debería simultáneamente vender el producto, ser dueña del framework de testing, y controlar el SDK que envuelve a cada competidor.
Si tu respuesta incluye la palabra "confianza" — felicidades, identificaste el problema.
La próxima vez que evalúes un modelo de IA, revisa quién construyó la regla, quién es dueño del laboratorio de pruebas, y de quién es el tooling que ejecuta el test. Si es la misma empresa tres veces, no estás evaluando — te están haciendo onboarding.
La carrera de modelos de IA no terminó porque alguien ganó. Terminó porque el que iba en punta compró el marcador y lo convirtió en tienda.





