Audytor zaczął pracować dla audytowanego

Jeśli prowadzisz red team, znasz zasadę: audytor nie pracuje dla audytowanego. Wybrałeś Promptfoo właśnie dlatego, że stał poza dostawcami modeli. 350 tys. deweloperów, 25% firm z Fortune 500, licencja MIT, multi-provider. Przepuszczał twoje fixture'y na jailbreaki, twoje sondy prompt-injection, scenariusze wycieku PII — i raportował co się sypie, niezależnie od tego, które laboratorium zbudowało model. Ta niezależność była produktem.

Testowanie bezpieczeństwa ma problem konfliktu interesów, którego reszta ewaluacji ML nie ma. Gdy oceniasz accuracy, własność dostawcy to uciążliwość. Gdy oceniasz podatność na exploity — własność dostawcy to całe pytanie.

9 marca 2026 OpenAI przejęło Promptfoo. Założyciele Ian Webster i Michael D'Angelo dołączyli do OpenAI Frontier. Warunki nieujawnione. Ostatnia prywatna wycena: 86 mln USD, według TechCrunch. Ogłoszenie na promptfoo.dev zobowiązało się — na piśmie — do utrzymania frameworka na licencji MIT, multi-provider i z niezależnym zarządzaniem. Ładne sformułowania. Strukturalne bodźce sugerują: czytaj dwa razy.

Oto co faktycznie zmienia się dla zespołów bezpieczeństwa. Moduł red-team Promptfoo dostarcza gotowe pakiety ataków — OWASP LLM Top 10, sondy NIST AI RMF, bibliotekę znanych szablonów jailbreaków. Gdy odpalałeś je na GPT-4o w zeszłym roku, przypadki failujące stawały się telemetrią która należała do ciebie. Po przejęciu chmurowa warstwa skanowania idzie przez infrastrukturę OpenAI. Co oznacza, że zbiór promptów skutecznie łamiących model OpenAI jest teraz widoczny dla dostawcy, którego model został złamany — zanim napiszesz mail z disclosure. To nie hipoteza; tak działa hostowany runner.

Wątek na Hacker News z 9 marca wypłynął dwa techniczne zastrzeżenia, których press release pominął. Pierwsze: kuracja pakietów ataków — kto decyduje, które szablony jailbreaków trafiają do domyślnego pakietu, gdy właściciel jest jednocześnie dostawcą modelu, który te jailbreaki łamią? Teardown na dev.to zwrócił uwagę, że trzy testy prompt-injection specyficzne dla OpenAI po cichu przeniesiono z domyślnego zestawu do warstwy „advanced" w release notes v2.14 z 22 marca. Może to porządki. Może nie. Drugie: model-sędzia. LLM-as-judge w Promptfoo domyślnie używa GPT-4o do scoringu według rubryki. Framework należący do OpenAI, który modelem OpenAI ocenia wyjścia modeli OpenAI — to nie nowy konflikt, to ten sam konflikt, tylko że teraz nośny. Wytyczne red-teamingowe Anthropic od zawsze zalecają ocenianie przez modele innego dostawcy właśnie z tego powodu.

Nic z tego nie znaczy, że narzędzie stało się gorsze. Self-hostowany build OSS dalej chodzi na twojej infrze, przeciwko dowolnemu dostawcy, z dowolnym sędzią, jakiego podepniesz. Licencja MIT jest realna. Commity dalej lądują. Zmieniła się ścieżka domyślna: warstwa chmurowa, hostowane pakiety ataków, zarządzany sędzia. Zespoły, które wybrały Promptfoo dla wygody, dziedziczą nową granicę zaufania — niezależnie od tego, czy przeczytały FAQ do przejęcia.

Jeśli twój threat model traktuje OpenAI jako potencjalnego przeciwnika — branże regulowane, kontrakty na ewaluację modeli frontierowych, jakakolwiek praca pod NDA wymieniającym konkretne laboratorium — przenieś grading do układu cross-vendor jeszcze w tym kwartale. Odpal Promptfoo self-hosted, oceniaj Claudem albo Gemini, trzymaj fixture'y ataków w prywatnym repo. DeepEval i Arize Phoenix są naprawdę vendor-neutral, jeśli wolisz zmienić narzędzie całkowicie.

Uczciwy odczyt: warstwa niezależnych narzędzi red-teamingowych właśnie skurczyła się o jedną nazwę. Regulatorzy jeszcze nie zauważyli 😾

→ OpenAI przejmuje Promptfoo → Promptfoo dołącza do OpenAI → Relacja TechCrunch

Audytor zaczął pracować dla audytowanego

Keep reading

OpenAI nie wygral wyscigu AI - kupil tablice wynikow

Osiem sandboxów i lock-in, o którym nikt cię nie uprzedził

Okienko uprawnien twojego agenta to placebo

MCP dziala wszedzie — do momentu uwierzytelniania