Der Auditor arbeitet jetzt für den Auditierten

Wer ein Red Team leitet, kennt die Regel: Der Auditor arbeitet nicht für den Auditierten. Du hast Promptfoo genau deshalb ausgewählt, weil es außerhalb der Modell-Anbieter saß. 350K Entwickler, 25% der Fortune 500, MIT-lizenziert, Multi-Provider. Es ließ deine Jailbreak-Fixtures laufen, deine Prompt-Injection-Proben, deine PII-Leak-Szenarien — und meldete, was kaputt war, egal welches Lab das Modell gebaut hatte. Diese Unabhängigkeit war das Produkt.

Sicherheitstests haben ein Interessenskonflikt-Problem, das der Rest der ML-Eval-Arbeit nicht hat. Wenn du Genauigkeit bewertest, ist die Anbieter-Zugehörigkeit ein Ärgernis. Wenn du Ausnutzbarkeit bewertest, ist die Anbieter-Zugehörigkeit die ganze Frage.

Am 9. März 2026 hat OpenAI Promptfoo übernommen. Die Gründer Ian Webster und Michael D'Angelo sind zu OpenAI Frontier gewechselt. Konditionen nicht offengelegt. Letzte private Bewertung: 86 Mio. USD, laut TechCrunch. Die Ankündigung auf promptfoo.dev hat sich — schriftlich — dazu verpflichtet, das Framework MIT-lizenziert, Multi-Provider und unabhängig geführt zu halten. Schöne Worte. Die strukturellen Anreize sagen: lies es zweimal.

Hier ist, was sich für Security-Teams tatsächlich verschiebt. Promptfoos Red-Team-Modul liefert vorgefertigte Attack Packs — OWASP LLM Top 10, NIST-AI-RMF-Proben, eine Bibliothek bekannter Jailbreak-Templates. Wenn du die letztes Jahr gegen GPT-4o laufen ließt, wurden die fehlschlagenden Fälle zu Telemetrie, die dir gehörte. Nach der Übernahme läuft der Cloud-gehostete Scan-Tier über OpenAI-Infrastruktur. Das heißt: Die Menge an Prompts, die ein OpenAI-Modell erfolgreich jailbreaken, ist jetzt für den Anbieter sichtbar, dessen Modell gejailbreakt wurde — bevor du überhaupt die Disclosure-Mail geschrieben hast. Das ist nicht hypothetisch; so funktioniert der gehostete Runner.

Der Hacker-News-Thread vom 9. März hat zwei technische Bedenken zutage gefördert, die die Pressemitteilung nicht erwähnte. Erstens, die Kuratierung der Attack Packs: Wer entscheidet, welche Jailbreak-Templates im Default-Pack landen, wenn der Eigentümer auch das Modell liefert, das gejailbreakt wird? Ein Teardown auf dev.to hat angemerkt, dass drei OpenAI-spezifische Prompt-Injection-Tests in den v2.14-Release-Notes vom 22. März leise von der Default-Suite in einen "Advanced"-Tier verschoben wurden. Könnte Aufräumarbeit sein. Könnte auch nicht. Zweitens, das Grader-Modell: Promptfoos LLM-as-judge nutzt standardmäßig GPT-4o für die Rubric-Bewertung. Ein OpenAI-eigenes Framework, das ein OpenAI-Modell verwendet, um OpenAI-Modell-Outputs zu bewerten, ist kein neuer Konflikt — es ist derselbe Konflikt, nur jetzt tragend. Anthropics Red-Team-Leitfaden empfiehlt genau aus diesem Grund schon immer Cross-Vendor-Grading.

Nichts davon heißt, dass das Tool schlechter wurde. Der selbst gehostete OSS-Build läuft weiter einwandfrei auf deiner eigenen Infra, gegen jeden Provider, mit jedem Grader, auf den du ihn richtest. Die MIT-Lizenz ist real. Die Commits landen weiter. Was sich geändert hat, ist der Default-Pfad: der Cloud-Tier, die gehosteten Attack Packs, der Managed Grader. Teams, die Promptfoo aus Bequemlichkeit adoptiert haben, erben die neue Vertrauensgrenze — ob sie die Acquisition-FAQ lesen oder nicht.

Wenn dein Threat Model OpenAI als potenziellen Gegner einschließt — regulierte Branchen, Frontier-Model-Evaluation-Verträge, irgendwelche Arbeiten unter einem NDA, das ein bestimmtes Lab namentlich nennt — verschieb das Grading noch in diesem Quartal auf ein Cross-Vendor-Setup. Lass Promptfoo self-hosted laufen, grade mit Claude oder Gemini, halte deine Attack-Fixtures in einem privaten Repo. DeepEval und Arize Phoenix sind ernsthaft vendor-neutral, falls du lieber komplett das Tool wechseln willst.

Die ehrliche Einschätzung: Die Layer der unabhängigen Red-Team-Tools ist gerade um einen Namen kürzer geworden. Die Regulatoren haben es noch nicht gemerkt 😾

→ OpenAI acquires Promptfoo → Promptfoo joining OpenAI → TechCrunch-Berichterstattung

Der Auditor arbeitet jetzt für den Auditierten

Keep reading

OpenAI hat das KI-Rennen nicht gewonnen -- es hat die Anzeigetafel gekauft

Acht Sandboxes und das Lock-in, vor dem dich keiner gewarnt hat

Der Berechtigungsdialog deines Agenten ist ein Placebo

MCP funktioniert ueberall — bis du dich authentifizieren musst