Otwierasz swoje IDE, wskazujesz AI moduł, mówisz "zrefaktoruj to", a potem odchodzisz. Dwadzieścia minut później wracasz i znajdujesz plik 16 przepisany w sposób, który przeczy wszystkiemu, co AI zdecydowało w pliku 3. Znowu zapomniało.
Dwa i pół miesiąca temu OpenAI powiedziało, że to poprawili. GPT-5.2-Codex pojawił się na rynku 14 stycznia z obietnicą: kompaktowania kontekstu — agenta, który pamięta, co robi przez długie sesje. Społeczność programistów wstrzymała oddech. Teraz jest późny marzec, cykl hype'u zakończył się i mamy wystarczającą ilość doświadczeń z rzeczywistego świata, aby zadać jedyne pytanie, które się liczy: czy to faktycznie zadziałało?
Oferta była przekonująca. Każde AI ma okno kontekstowe — swoją pamięć operacyjną, ile tekstu może jednocześnie "widzieć". Podczas długiej sesji kodowania to okno się zapełnia. Kiedy się przepełnia, model zapomina wcześniejsze decyzje i zaczyna sobie zaprzeczać. Kompaktowanie kontekstu pozwala GPT-5.2-Codex inteligentnie kompresować to, co jest w tym oknie — zostawiając istotne elementy, odrzucając szum. W teorii, to jest różnica między agentem obsługującym 30-minutowe zadanie a takim, który przetrwa maraton refaktoryzacji trwający 3 godziny bez amnezji.
OpenAI również wprowadziło wykrywanie cyberbezpieczeństwa — model wykrywa podatności podczas generowania kodu, nie jako oddzielny krok skanowania. Na benchmarkach, GPT-5.2-Codex osiągnął najwyższe wyniki na SWE-Bench Pro oraz Terminal-Bench 2.0. Obsługa Windows również dostała dedykowane wsparcie, co zajęło tylko... kilka lat.
Oto, co pokazały dwa miesiące użycia produkcyjnego. Kompaktowanie kontekstu działa — częściowo. Dla sesji poniżej godziny, poprawa jest realna i zauważalna. Twój agent utrzymuje swój wątek, pamięta decyzje architektoniczne z pliku 3, gdy dociera do pliku 16. Ale gdy przekroczysz dwugodzinny próg w dużej bazie kodu, pojawiają się pęknięcia. Kompaktowanie z natury jest stratne — musi coś odrzucić — a ocena modelu o tym, co jest "szumem", nie zawsze pasuje do twojej. Subtelne niezmienniki zostają skompresowane. Ograniczenia typów ustanowione na początku sesji znikają. Jest lepiej niż surowe przepełnienie kontekstu, znacznie lepiej, ale powiedzieć, że "rozwiązane" to przesada.
Twierdzenia o bezpieczeństwie? Uwierzmy, gdy ktoś opublikuje pełny raport zespołu czerwonego, a nie komunikat prasowy. Większość rzeczywistych podatności to nieoczywiste wzorce, które model może wykryć — to subtelne błędy architektoniczne, błędy czasowe, błędy logiki ukryte w regułach biznesowych. "Wykrywa podatności podczas generacji" brzmi świetnie w prezentacji. W produkcji, błędy, które naprawdę cię ranią, to te, których żaden model nie przewidzi. Raporty społeczności sugerują, że wychwytuje on łatwe do wykrycia problemy — wzorce wstrzykiwania SQL, oczywiste problemy z buforami — ale pomija błędy na poziomie architektonicznym, które faktycznie powodują naruszenia.
Strategicznie, to zawsze było działanie nadganiające, a rynek potraktował to odpowiednio. Claude Sonnet 4.5 zajmował tron modelu kodującego przez miesiące przed tym debiutem. Cursor zbudował własne modele. Windsurf wprowadził na rynek SWE-1.5. OpenAI obserwowało, jak rynek agentów kodujących odchodzi bez nich i zareagowało. Solidna odpowiedź — ale odpowiedź, nie przewodnictwo. Dwa miesiące później pozycja Claude'a znacząco się nie zmieniła. Wojny agentów kodujących okazały się kwestią narzędzi i integracji przepływu pracy, a nie tylko czystej zdolności modelu.
Cennik pozostaje najostrzejszą decyzją w całym pakiecie: $1.75 za milion wejściowych tokenów (token to około ¾ angielskiego słowa — tak AI mierzy i rozlicza tekst) i $14 za milion wyjściowych tokenów. Identyczne do bazowego GPT-5.2. Bez warstwy premium, bez dodatkowej sprzedaży. To bezpośrednie uderzenie w każdego konkurenta naliczającego dodatkowe opłaty za modele specyficzne dla kodowania i to się utrzymało. Windsurf musiał oddać SWE-1.5 za darmo do marca, aby pozostać w rozmowie - a nawet to nie zadziałało w pełni.
Era jednego modelu dla wszystkich oficjalnie się skończyła. Wprowadzenie przez OpenAI specjalnie zbudowanego modelu kodującego potwierdziło to, co rynek już zrozumiał: pisanie kodu autonomicznie to zupełnie inna praca niż czatowanie. Ale głębszą lekcją tych dwóch miesięcy jest to, że zarządzanie kontekstem — nie inteligencja, nie benchmarki — jest rzeczywistym wąskim gardłem w agworkowaniu agentów. GPT-5.2-Codex przesunął tę granicę do przodu. Nie wyeliminował jej. Twój agent refaktoryzacyjny teraz pamięta, co robił w pliku 3. Czy nadal pamięta w pliku 47, zależy od tego, jak bardzo czujesz się szczęśliwy.



