GPT-5.2-Codex: найгостріша кодинг-зброя OpenAI

Відкриваєш IDE, натравлюєш ШІ на модуль, кажеш 'зарефактор це' і йдеш пити каву. Через двадцять хвилин повертаєшся — а воно переписало файл 16 так, що він суперечить усьому, що було вирішено у файлі 3. ШІ забув. Знову.

Два з половиною місяці тому OpenAI заявили, що це вирішено. GPT-5.2-Codex вийшов 14 січня з головною обіцянкою: context compaction — агент, який пам'ятає, що робить, упродовж тривалих сесій. Кодерське ком'юніті колективно затримало подих. Зараз кінець березня, цикл хайпу зробив повний оберт, і в нас достатньо реального досвіду, щоб поставити єдине питання, яке має сенс: воно справді працює?

Пітч був красивий. У кожного ШІ є контекстне вікно — його робоча пам'ять, скільки тексту він 'бачить' одночасно. Під час тривалої сесії кодування це вікно заповнюється. Коли воно переповнюється, модель забуває ранні рішення і починає суперечити собі. Context compaction дозволяє GPT-5.2-Codex інтелектуально стискати вміст вікна — зберігаючи важливе, відкидаючи шум. Теоретично це різниця між агентом, який тягне 30-хвилинне завдання, і тим, який витримує 3-годинний рефакторинг-марафон без амнезії.

OpenAI також вбудували детекцію кіберзагроз — модель помічає вразливості під час генерації коду, а не на окремому етапі сканування. На бенчмарках GPT-5.2-Codex видав топові результати на SWE-Bench Pro та Terminal-Bench 2.0. Підтримка Windows теж отримала окремий буст, на що знадобилося лише… кілька років.

Ось що показали два місяці продакшн-використання. Context compaction працює — частково. Для сесій менше години покращення реальне і відчутне. Агент тримає нитку, пам'ятає архітектурні рішення з файлу 3, коли доходить до файлу 16. Але перетни позначку у дві години на великому кодбейсі — і тріщини проступають. Компакція за визначенням втратна — щось доведеться відкинути — і судження моделі про те, що є 'шумом', не завжди збігається з вашим. Тонкі інваріанти стискаються до нуля. Обмеження типів, встановлені на початку сесії, зникають. Це краще за сире переповнення контексту, значно краще, але 'вирішено' — це перебільшення.

Заяви про безпеку? Повірю повністю, коли хтось опублікує комплексний red-team звіт, а не прес-реліз. Більшість реальних вразливостей — це не очевидні патерни, які модель може спіймати. Це тонкі архітектурні помилки, тайминг-баги, логічні помилки, заховані в бізнес-правилах. 'Детектує вразливості під час генерації' — звучить круто на кейноті. У продакшні баги, які реально болять, — це ті, яких жодна модель не бачить наперед. Відгуки ком'юніті поки що кажуть, що модель ловить низьковисячі фрукти — патерни SQL-ін'єкцій, очевидні проблеми з буферами — але пропускає архітектурні діри, які спричиняють справжні зломи.

Стратегічно це завжди був хід наздоганяння, і ринок поставився до нього відповідно. Claude Sonnet 4.5 тримав трон кодинг-моделей місяцями до цього запуску. Cursor побудував власні моделі. Windsurf випустив SWE-1.5. OpenAI дивились, як ринок агентного кодингу від'їжджає без них, і відповіли. Солідна відповідь — але саме відповідь, а не лідерство. Через два місяці позиції Claude не постраждали суттєво. Війни кодинг-агентів виявилися більше про тулінг та інтеграцію в робочий процес, ніж просто про сиру потужність моделі.

Прайсинг залишається найгострішим рішенням у всьому пакеті: $1.75 за мільйон вхідних токенів (токен — це приблизно ¾ англійського слова, саме так ШІ вимірює й тарифікує текст) і $14 за мільйон вихідних. Ідентично базовому GPT-5.2. Жодного преміум-тиру, жодного апсейлу. Це прямий удар по кожному конкуренту, який бере додатково за кодинг-специфічні моделі, і ця стратегія тримається. Windsurf довелося роздавати SWE-1.5 безкоштовно весь березень, щоб хоч якось залишитися в розмові — і навіть це не повністю спрацювало.

Ера 'одна модель на все' офіційно мертва. OpenAI, випустивши спеціалізований кодинг-дериватив, підтвердили те, що ринок вже збагнув: автономне написання коду — це фундаментально інша робота, ніж просто чатитися. Але глибший урок цих двох місяців у тому, що управління контекстом — не інтелект, не бенчмарки — є справжнім вузьким місцем агентного кодингу. GPT-5.2-Codex просунув цю межу вперед. Не усунув її. Ваш рефакторинг-агент тепер пам'ятає, що він робив у файлі 3. Чи пам'ятатиме він на файлі 47 — залежить від того, наскільки ви вірите у фортуну.

GPT-5.2-Codex: найгостріша кодинг-зброя OpenAI

Читай далі

Windsurf SWE-1.5: IDE, що виростив власні мізки

Діалог дозволів вашого агента — це плацебо

Парадокс агентів: менше автономії — більше користі

Три агентні платформи, три різні біологічні види