Wybierasz narzędzie AI do kodowania sprawdzając ranking. SWE-bench mówił ci, który model naprawił najwięcej bugów. Promptfoo pozwalał odpalić porównania side-by-side. Agents SDK dawał framework do budowania. Trzy filary infrastruktury porównawczej. Trzy niezależne kontrole tego, kto naprawdę jest najlepszy.
Każdą z tych historii opisywałem osobno w tym tygodniu — upadek SWE-bench, przejęcie Promptfoo, aktualizację Agents SDK. Oddzielnie każda miała sens. Razem ujawniają coś, czego żaden z pojedynczych kawałków nie uchwycił.
Oficjalna narracja
OpenAI wykonało trzy niepowiązane ruchy. Opublikowali uzasadnioną krytykę wadliwego benchmarku. Przejęli open-source'owe narzędzie do ewaluacji i zostawili licencję MIT (każdy może kopiować, modyfikować, redystrybuować). Uczynili swój SDK model-agnostic. Każdy ruch da się obronić w izolacji. Każdy pomaga deweloperom.
Ale tak naprawdę
To jest integracja pionowa stosu ewaluacyjnego. I ma precedens.
W 2007 roku Google przejął DoubleClick — dominującą platformę ad-servingową, która mierzyła skuteczność reklam u wszystkich dostawców, włącznie z samym Google. UE prowadziła śledztwo latami. Google obiecywał neutralność. Dekadę później DOJ argumentował, że Google systematycznie faworyzował własne produkty reklamowe właśnie przez tę infrastrukturę. Firma, która sprzedawała reklamy, jednocześnie prowadziła narzędzie oceniające, czy te reklamy działały.
OpenAI właśnie odtworzył ten sam scenariusz na ewaluacji modeli AI — w siedem tygodni zamiast siedmiu lat.
Trzy ruchy, jeden wzorzec
Ruch pierwszy (23 lutego): Audyt OpenAI wykazał, że 59,4% przypadków testowych SWE-bench Verified jest wadliwych, a kontaminacja danych treningowych dotyczy każdego frontier modelu. Przestali raportować wyniki. Krytyka miała podstawy — trudniejsze zadania SWE-bench Pro pokazują 22-punktową różnicę w stosunku do napompowanych wyników Verified. Ale modele OpenAI utknęły na ~80% na Verified, a konkurencja nadrabiała. Wygodny timing.
Ruch drugi (9 marca): OpenAI przejął Promptfoo — 350 000+ deweloperów, ponad 25% firm z Fortune 500 — framework ewaluacyjny, którego większość zespołów używa do porównywania LLM-ów. Najpopularniejsza linijka miarowa należy teraz do jednego z zawodników.
Ruch trzeci (15 kwietnia): Aktualizacja Agents SDK dodała natywne wsparcie dla ponad 100 konkurencyjnych LLM-ów przez integrację z LiteLLM. Każdy rywalski model staje się jednoliniową zmianą konfiguracji wewnątrz frameworku OpenAI. Model staje się commodity; SDK staje się fosą.
Co realnie zmienia się dla deweloperów
Trzy rzeczy.
Przesunięcie tarcia. Kiedy zmiana modelu wymaga edycji jednej linijki w configu OpenAI, nie "wybierasz Claude'a" — wybierasz platformę OpenAI i okazjonalnie routujesz do Claude'a. Pomyśl o Apple budującym jedyny sklep z telefonami i łaskawie pozwalającym Samsungowi tam sprzedawać.
Domyślne eval wygrywa z opcjami eval. Promptfoo nadal może testować dowolny model. Ale domyślne szablony, rekomendowane configi, ścieżka "getting started" — to one kształtują to, co 90% deweloperów faktycznie testuje. Jak zauważył Simon Willison: "OpenAI nie ma jeszcze zbyt dobrego track recordu w kwestii przejmowania i utrzymywania projektów open source." Licencja MIT oznacza, że możesz zrobić fork i odejść. Większość tego nie zrobi. Domyślne ustawienia mają ogromną moc.
Autorytet benchmarków się fragmentaryzuje. SWE-bench Pro używa trudniejszych, mniej skontaminowanych zadań w wielu językach. LiveCodeBench rotuje problemy, żeby zapobiec zapamiętywaniu. Żaden nie ma adopcji, jaką miał Verified. Budowanie zaufania do nowego benchmarku trwa lata. OpenAI nie potrzebuje lat — wystarczą miesiące zamętu.
Luka w kontrstrategii
Anthropic dostarcza Claude Code — narzędzie bezpośrednio do deweloperów, omijające wrappery SDK. Google pakuje Gemini do Androida, Chrome'a i Workspace'a, tworząc kanały dystrybucji, których OpenAI nie może przechwycić. Obaj grają defensywnie przez dystrybucję, a nie pomiary.
Żaden z nich nie zbudował alternatywnego standardu ewaluacji. To jest prawdziwa luka. Branża ma konkurujące modele, konkurujące SDK, konkurujące kanały dystrybucji — ale nie ma już niezależnej, zaufanej, szeroko przyjętej infrastruktury ewaluacyjnej. Stara tablica wyników miała realne problemy z kontaminacją. Następca jeszcze nie istnieje.
Niewygodne pytanie
Pytanie nie brzmi, czy poszczególne ruchy OpenAI wytrzymują krytykę. Wytrzymują. Pytanie brzmi, czy jedna firma powinna jednocześnie sprzedawać produkt, posiadać framework testowy i kontrolować SDK opakowujący każdego konkurenta.
Jeśli twoja odpowiedź zawiera słowo "zaufanie" — gratulacje, właśnie zidentyfikowałeś problem.
Następnym razem, gdy będziesz ewaluować model AI, sprawdź kto zbudował miarę, kto jest właścicielem laboratorium testowego i czyj tooling przeprowadza test. Jeśli trzy razy pada ta sama nazwa — nie ewaluujesz. Jesteś onboardowany.
Wyścig modeli AI nie zakończył się dlatego, że ktoś wygrał. Zakończył się, bo lider kupił tablicę wyników i przerobił ją na sklep.





