Аудитор тепер працює на того, кого аудить

Якщо ти ведеш red team, правило ти знаєш: аудитор не працює на того, кого він аудить. Ти й обрав Promptfoo саме тому, що він сидів поза вендорами моделей. 350K розробників, 25% Fortune 500, ліцензія MIT, мультипровайдерність. Він ганяв твої jailbreak-фікстури, твої проби на prompt-injection, сценарії витоку PII — і репортив, що зламалося, незалежно від того, яка лабораторія зібрала модель. Ця незалежність і була продуктом.

У security-тестуванні є проблема конфлікту інтересів, якої немає в решті ML eval-роботи. Коли ти оцінюєш accuracy, володіння вендора — це дрібна незручність. Коли ти оцінюєш exploitability, володіння вендора — це все питання цілком.

9 березня 2026 OpenAI придбав Promptfoo. Засновники Ian Webster та Michael D'Angelo пішли в OpenAI Frontier. Умови не розкриваються. Остання приватна оцінка: $86M, за даними TechCrunch. Анонс на promptfoo.dev письмово зобов'язався зберегти фреймворк під MIT, мультипровайдерним і з незалежним управлінням. Гарні формулювання. Структурний стимул каже перечитати двічі.

Ось що насправді змінюється для security-команд. Red-team модуль Promptfoo постачає готові attack-паки — OWASP LLM Top 10, проби NIST AI RMF, бібліотеку відомих jailbreak-шаблонів. Коли ти ганяв їх проти GPT-4o торік, failing cases ставали телеметрією, якою володів ти. Після поглинання cloud-hosted scanning tier маршрутизується через інфраструктуру OpenAI. А це означає, що набір промптів, які успішно джейлбрейкають модель OpenAI, тепер видимий вендору, чию модель і джейлбрейкнули — ще до того, як ти написав disclosure-лист. Це не гіпотетично; саме так працює hosted runner.

Тред на Hacker News від 9 березня підсвітив два технічні занепокоєння, яких не було в прес-релізі. Перше — курація attack-паків: хто вирішує, які jailbreak-шаблони потрапляють у дефолтний пак, коли власник одночасно постачає і модель, яку джейлбрейкають? Розбір на dev.to звернув увагу, що три OpenAI-специфічні тести на prompt-injection тихо переїхали з дефолтного набору в "advanced"-тір у release notes v2.14 22 березня. Може, housekeeping. А може, й ні. Друге — grader-модель: LLM-as-judge у Promptfoo за замовчуванням використовує GPT-4o для скорингу за рубрикою. OpenAI-овий фреймворк, який використовує модель OpenAI для оцінки виводу моделі OpenAI — це не новий конфлікт, це той самий конфлікт, тільки тепер несучий. Red-team гайданс від Anthropic завжди рекомендував cross-vendor grading саме з цієї причини.

Нічого з цього не означає, що інструмент став гіршим. Self-hosted OSS-збірка як запускалася на твоїй інфрі, так і запускається — проти будь-якого провайдера, з будь-яким grader, на який ти її наведеш. MIT-ліцензія реальна. Коміти продовжують сипатися. Змінився дефолтний шлях: cloud-тір, hosted attack-паки, managed grader. Команди, які взяли Promptfoo заради зручності, наслідують новий trust boundary — прочитали вони acquisition FAQ чи ні.

Якщо твоя threat model включає OpenAI як потенційного супротивника — регульовані індустрії, контракти на evaluation frontier-моделей, будь-яка робота під NDA, що називає конкретну лабораторію — цього кварталу перенось grading у cross-vendor конфігурацію. Ганяй Promptfoo self-hosted, оцінюй через Claude або Gemini, тримай attack-фікстури у приватному репо. DeepEval та Arize Phoenix реально vendor-neutral, якщо хочеш переїхати повністю.

Чесне прочитання: прошарок незалежного red-team тулінгу щойно скоротився на одне ім'я. Регулятори ще не помітили 😾

→ OpenAI acquires Promptfoo → Promptfoo joining OpenAI → TechCrunch coverage

Аудитор тепер працює на того, кого аудить

Читай далі

OpenAI не виграла перегони ШІ — вона купила табло

Вісім пісочниць і lock-in, про який вас ніхто не попередив

Діалог дозволів вашого агента — це плацебо

MCP працює скрізь — поки не спробуєш автентифікуватись