Ви обираєте AI-інструмент для кодингу за лідербордом. SWE-bench показав, яка модель фіксить найбільше багів. Promptfoo дав змогу порівнювати моделі пліч-о-пліч. Agents SDK — фреймворк для розробки. Три стовпи інфраструктури порівняння. Три незалежні перевірки, хто насправді найкращий.

Цього тижня я розбирав кожну з цих історій окремо — крах SWE-bench, поглинання Promptfoo, оновлення Agents SDK. Поодинці кожна мала сенс. Разом вони розкривають те, чого жодна окрема новина не показала.

Загальноприйнята версія

OpenAI зробила три непов'язані кроки. Опублікувала обґрунтовану критику хибного бенчмарку. Придбала опенсорсний інструмент для оцінки й залишила його під MIT-ліцензією (будь-хто може копіювати, змінювати, поширювати). Зробила свій SDK модель-агностичним. Кожен крок захищається окремо. Кожен крок корисний розробникам.

Але насправді

Це вертикальна інтеграція стеку оцінювання. І це має прецедент.

У 2007 році Google купив DoubleClick — домінантну рекламну платформу, яка вимірювала ефективність реклами всіх провайдерів, включно з самим Google. ЄС розслідував це роками. Google обіцяв нейтральність. Через десятиліття Мін'юст США довів, що Google систематично просував власні рекламні продукти через ту саму інфраструктуру. Компанія, яка продавала рекламу, також контролювала інструмент, що оцінював її ефективність.

OpenAI щойно розіграв ту саму партію з оцінкою AI-моделей — за сім тижнів замість семи років.

Три ходи, один патерн

Хід перший (23 лютого): аудит OpenAI виявив, що 59,4% тестів SWE-bench Verified містять помилки, а також знайшов витік тренувальних даних у всіх провідних моделях. Вони припинили публікувати результати. Критика була обґрунтована — складніші задачі SWE-bench Pro показують розрив у 22 пункти порівняно з завищеними показниками Verified. Але моделі OpenAI застрягли на ~80% у Verified, поки конкуренти наздоганяли. Зручний момент.

Хід другий (9 березня): OpenAI придбала Promptfoo — 350 000+ розробників, понад 25% компаній Fortune 500 — фреймворк для оцінки, яким більшість команд порівнювали LLM. Найпопулярніша лінійка тепер належить одному з учасників змагання.

Хід третій (15 квітня): оновлення Agents SDK додало нативну підтримку 100+ конкурентних LLM через інтеграцію з LiteLLM. Кожна модель-суперник стає одним рядком конфігу всередині фреймворку OpenAI. Модель перетворюється на commodity, а SDK стає мотом.

Що реально змінюється для розробників

Три речі.

Зміщення тертя. Коли перемикання моделі — це зміна одного рядка в конфігу OpenAI, ви не «обираєте Claude» — ви обираєте платформу OpenAI і час від часу маршрутизуєте запити до Claude. Уявіть, що Apple побудувала єдиний магазин телефонів і «щедро» дозволяє Samsung там продаватися.

Дефолти перемагають альтернативи. Promptfoo все ще може тестувати будь-яку модель. Але шаблони за замовчуванням, рекомендовані конфіги, flow «для початківців» — саме вони формують те, що реально тестують 90% розробників. Як зазначив Саймон Вілісон: «У OpenAI поки немає особливого досвіду в підтримці придбаних опенсорс-проєктів.» MIT-ліцензія означає, що ви можете зробити форк і піти. Більшість не піде. Дефолти — потужна штука.

Авторитет бенчмарків фрагментується. SWE-bench Pro використовує складніші, менш забруднені завдання кількома мовами. LiveCodeBench ротує задачі, щоб запобігти запам'ятовуванню. Жоден не має тієї впізнаваності, яку мав Verified. Побудувати довіру до нового бенчмарку — це роки. OpenAI не потрібні роки — їм потрібні місяці невизначеності.

Прогалина в контрстратегії

Anthropic випускає Claude Code — інструмент прямого доступу до розробника, що обходить SDK-обгортки. Google вбудовує Gemini в Android, Chrome і Workspace, створюючи канали дистрибуції, які OpenAI не може перехопити. Обидві компанії грають у захисті через дистрибуцію, а не через вимірювання.

Жодна з них не побудувала альтернативний стандарт оцінювання. Ось де справжня прогалина. В індустрії є конкурентні моделі, конкурентні SDK, конкурентні канали дистрибуції — але більше немає незалежної, надійної, масово прийнятої інфраструктури оцінювання. Стара система мала реальні проблеми з контамінацією. Нової поки не існує.

Незручне питання

Питання не в тому, чи витримують окремі кроки OpenAI перевірку. Витримують. Питання в тому, чи має одна компанія одночасно продавати продукт, володіти фреймворком для тестування й контролювати SDK, що обгортає кожного конкурента.

Якщо у вашій відповіді є слово «довіра» — вітаю, ви визначили проблему.

Наступного разу, коли оцінюватимете AI-модель, перевірте: хто створив лінійку, хто володіє тестовою лабораторією і чиє тулінг проводить тест. Якщо тричі одна й та сама компанія — ви не оцінюєте. Вас онбордять.

Перегони AI-моделей не закінчилися тому, що хтось переміг. Вони закінчилися тому, що лідер купив табло і перетворив його на магазин.