El auditor ahora trabaja para el auditado

Si manejas un red team, sabes la regla: el auditor no trabaja para el auditado. Elegiste Promptfoo justamente porque estaba fuera de los proveedores de modelos. 350K desarrolladores, 25% del Fortune 500, licencia MIT, multi-proveedor. Ejecutaba tus fixtures de jailbreak, tus pruebas de prompt-injection, tus escenarios de fuga de PII — y reportaba lo que se rompía, sin importar qué laboratorio construyó el modelo. Esa independencia era el producto.

Las pruebas de seguridad tienen un problema de conflicto de interés que el resto del trabajo de eval en ML no tiene. Cuando mides precisión, que el proveedor sea dueño es un fastidio. Cuando mides explotabilidad, que el proveedor sea dueño es toda la pregunta.

El 9 de marzo de 2026, OpenAI adquirió Promptfoo. Los fundadores Ian Webster y Michael D'Angelo se sumaron a OpenAI Frontier. Términos no revelados. Última valuación privada: $86M, según TechCrunch. El anuncio de promptfoo.dev se comprometió — por escrito — a mantener el framework con licencia MIT, multi-proveedor, y gobernado de forma independiente. Bonito lenguaje. El incentivo estructural dice léelo dos veces.

Esto es lo que realmente cambia para los equipos de seguridad. El módulo de red-team de Promptfoo trae paquetes de ataque prearmados — OWASP LLM Top 10, sondeos del NIST AI RMF, una biblioteca de plantillas de jailbreak conocidas. Cuando corrías eso contra GPT-4o el año pasado, los casos que fallaban se volvían telemetría tuya. Post-adquisición, la capa de escaneo hosteada en la nube se enruta a través de la infraestructura de OpenAI. Lo cual significa que el conjunto de prompts que logran hacer jailbreak a un modelo de OpenAI ahora es visible para el proveedor cuyo modelo fue jailbreakeado — antes de que hayas escrito el correo de disclosure. Eso no es hipotético; así funciona el runner hosteado.

El hilo de Hacker News del 9 de marzo sacó a la luz dos preocupaciones técnicas que el comunicado de prensa no mencionó. Primero, la curaduría de paquetes de ataque: ¿quién decide qué plantillas de jailbreak se incluyen en el paquete por defecto cuando el dueño también es quien envía el modelo que está siendo jailbreakeado? Un desarme en dev.to señaló que tres pruebas de prompt-injection específicas para OpenAI se movieron calladamente del suite por defecto a un tier "avanzado" en las notas de la versión v2.14 el 22 de marzo. Puede ser limpieza de casa. Puede que no. Segundo, el modelo evaluador: el LLM-as-judge de Promptfoo usa GPT-4o por defecto para puntuación por rúbrica. Un framework propiedad de OpenAI usando un modelo de OpenAI para calificar las salidas de un modelo de OpenAI no es un conflicto nuevo — es el mismo conflicto, ahora como pieza de carga. La guía de red-team de Anthropic siempre recomendó calificación cruzada entre proveedores precisamente por esta razón.

Nada de esto significa que la herramienta haya empeorado. El build OSS self-hosted sigue corriendo bien en tu propia infra, contra cualquier proveedor, con cualquier grader que le apuntes. La licencia MIT es real. Los commits siguen aterrizando. Lo que cambió es el camino por defecto: la capa en la nube, los paquetes de ataque hosteados, el grader gestionado. Los equipos que adoptaron Promptfoo por comodidad heredan el nuevo límite de confianza lean o no el FAQ de la adquisición.

Si tu modelo de amenazas incluye a OpenAI como adversario potencial — industrias reguladas, contratos de evaluación de modelos frontera, cualquier trabajo bajo un NDA que nombre a un laboratorio específico — mueve la calificación a un setup cruzado entre proveedores este trimestre. Corre Promptfoo self-hosted, califica con Claude o Gemini, guarda tus fixtures de ataque en un repo privado. DeepEval y Arize Phoenix son genuinamente neutrales respecto al proveedor si prefieres cambiar de herramienta por completo.

La lectura honesta: la capa de herramientas independientes de red-team acaba de acortarse en un nombre. Los reguladores todavía no se dan cuenta 😾

→ OpenAI adquiere Promptfoo → Promptfoo se une a OpenAI → Cobertura de TechCrunch

El auditor ahora trabaja para el auditado

Keep reading

OpenAI no gano la carrera de IA — compro el marcador

Ocho sandboxes y el lock-in del que nadie te avisó

El dialogo de permisos de tu agente es un placebo

MCP funciona en todos lados — hasta que intentas autenticarte