OpenAI nie wygral wyscigu AI - kupil tablice wynikow

Wybierasz narzędzie AI do kodowania sprawdzając ranking. SWE-bench mówił ci, który model naprawił najwięcej bugów. Promptfoo pozwalał odpalić porównania side-by-side. Agents SDK dawał framework do budowania. Trzy filary infrastruktury porównawczej. Trzy niezależne kontrole tego, kto naprawdę jest najlepszy.

Każdą z tych historii opisywałem osobno w tym tygodniu — upadek SWE-bench, przejęcie Promptfoo, aktualizację Agents SDK. Oddzielnie każda miała sens. Razem ujawniają coś, czego żaden z pojedynczych kawałków nie uchwycił.

Oficjalna narracja

OpenAI wykonało trzy niepowiązane ruchy. Opublikowali uzasadnioną krytykę wadliwego benchmarku. Przejęli open-source'owe narzędzie do ewaluacji i zostawili licencję MIT (każdy może kopiować, modyfikować, redystrybuować). Uczynili swój SDK model-agnostic. Każdy ruch da się obronić w izolacji. Każdy pomaga deweloperom.

Ale tak naprawdę

To jest integracja pionowa stosu ewaluacyjnego. I ma precedens.

W 2007 roku Google przejął DoubleClick — dominującą platformę ad-servingową, która mierzyła skuteczność reklam u wszystkich dostawców, włącznie z samym Google. UE prowadziła śledztwo latami. Google obiecywał neutralność. Dekadę później DOJ argumentował, że Google systematycznie faworyzował własne produkty reklamowe właśnie przez tę infrastrukturę. Firma, która sprzedawała reklamy, jednocześnie prowadziła narzędzie oceniające, czy te reklamy działały.

OpenAI właśnie odtworzył ten sam scenariusz na ewaluacji modeli AI — w siedem tygodni zamiast siedmiu lat.

Trzy ruchy, jeden wzorzec

Ruch pierwszy (23 lutego): Audyt OpenAI wykazał, że 59,4% przypadków testowych SWE-bench Verified jest wadliwych, a kontaminacja danych treningowych dotyczy każdego frontier modelu. Przestali raportować wyniki. Krytyka miała podstawy — trudniejsze zadania SWE-bench Pro pokazują 22-punktową różnicę w stosunku do napompowanych wyników Verified. Ale modele OpenAI utknęły na ~80% na Verified, a konkurencja nadrabiała. Wygodny timing.

Ruch drugi (9 marca): OpenAI przejął Promptfoo — 350 000+ deweloperów, ponad 25% firm z Fortune 500 — framework ewaluacyjny, którego większość zespołów używa do porównywania LLM-ów. Najpopularniejsza linijka miarowa należy teraz do jednego z zawodników.

Ruch trzeci (15 kwietnia): Aktualizacja Agents SDK dodała natywne wsparcie dla ponad 100 konkurencyjnych LLM-ów przez integrację z LiteLLM. Każdy rywalski model staje się jednoliniową zmianą konfiguracji wewnątrz frameworku OpenAI. Model staje się commodity; SDK staje się fosą.

Co realnie zmienia się dla deweloperów

Trzy rzeczy.

Przesunięcie tarcia. Kiedy zmiana modelu wymaga edycji jednej linijki w configu OpenAI, nie "wybierasz Claude'a" — wybierasz platformę OpenAI i okazjonalnie routujesz do Claude'a. Pomyśl o Apple budującym jedyny sklep z telefonami i łaskawie pozwalającym Samsungowi tam sprzedawać.

Domyślne eval wygrywa z opcjami eval. Promptfoo nadal może testować dowolny model. Ale domyślne szablony, rekomendowane configi, ścieżka "getting started" — to one kształtują to, co 90% deweloperów faktycznie testuje. Jak zauważył Simon Willison: "OpenAI nie ma jeszcze zbyt dobrego track recordu w kwestii przejmowania i utrzymywania projektów open source." Licencja MIT oznacza, że możesz zrobić fork i odejść. Większość tego nie zrobi. Domyślne ustawienia mają ogromną moc.

Autorytet benchmarków się fragmentaryzuje. SWE-bench Pro używa trudniejszych, mniej skontaminowanych zadań w wielu językach. LiveCodeBench rotuje problemy, żeby zapobiec zapamiętywaniu. Żaden nie ma adopcji, jaką miał Verified. Budowanie zaufania do nowego benchmarku trwa lata. OpenAI nie potrzebuje lat — wystarczą miesiące zamętu.

Luka w kontrstrategii

Anthropic dostarcza Claude Code — narzędzie bezpośrednio do deweloperów, omijające wrappery SDK. Google pakuje Gemini do Androida, Chrome'a i Workspace'a, tworząc kanały dystrybucji, których OpenAI nie może przechwycić. Obaj grają defensywnie przez dystrybucję, a nie pomiary.

Żaden z nich nie zbudował alternatywnego standardu ewaluacji. To jest prawdziwa luka. Branża ma konkurujące modele, konkurujące SDK, konkurujące kanały dystrybucji — ale nie ma już niezależnej, zaufanej, szeroko przyjętej infrastruktury ewaluacyjnej. Stara tablica wyników miała realne problemy z kontaminacją. Następca jeszcze nie istnieje.

Niewygodne pytanie

Pytanie nie brzmi, czy poszczególne ruchy OpenAI wytrzymują krytykę. Wytrzymują. Pytanie brzmi, czy jedna firma powinna jednocześnie sprzedawać produkt, posiadać framework testowy i kontrolować SDK opakowujący każdego konkurenta.

Jeśli twoja odpowiedź zawiera słowo "zaufanie" — gratulacje, właśnie zidentyfikowałeś problem.

Następnym razem, gdy będziesz ewaluować model AI, sprawdź kto zbudował miarę, kto jest właścicielem laboratorium testowego i czyj tooling przeprowadza test. Jeśli trzy razy pada ta sama nazwa — nie ewaluujesz. Jesteś onboardowany.

Wyścig modeli AI nie zakończył się dlatego, że ktoś wygrał. Zakończył się, bo lider kupił tablicę wyników i przerobił ją na sklep.

OpenAI nie wygral wyscigu AI - kupil tablice wynikow

Oficjalna narracja

Ale tak naprawdę

Trzy ruchy, jeden wzorzec

Co realnie zmienia się dla deweloperów

Luka w kontrstrategii

Niewygodne pytanie

Keep reading

Audytor zaczął pracować dla audytowanego

Podatek od przepisywania OpenAI: piec API w trzy lata

Podręcznik Androida w wykonaniu OpenAI: oddaj runtime za darmo, przejmij platformę

SWE-bench nie zyje. Oto na czym naprawde rywalizuje twoje narzedzie AI do kodowania.