SWE-bench nie zyje. Oto na czym naprawde rywalizuje twoje narzedzie AI do kodowania.

Wybierasz narzędzie AI do kodowania sprawdzając ranking. SWE-bench Verified — standaryzowany test, w którym modele AI naprawiają bugi w open-source'owych projektach Pythonowych — publikuje zgrabną tabelkę, a każdy vendor wpycha ci swój wynik w twarz. Wyższy wynik, lepsze narzędzie. Proste, nie?

Tyle że narzędzia oparte na niemal identycznych modelach zachowują się kompletnie inaczej na twoim faktycznym codebase. Jedno ogarnia refaktor trzech plików, drugie halucynuje import, który nie istnieje. Wynik mówi, że to bliźniaki. Twój poniedziałek rano mówi co innego.

10 000 deweloperów potwierdza: ranking kłamie

Ankieta AI Pulse od JetBrains wylądowała w tym miesiącu — ponad 10 000 profesjonalnych deweloperów, osiem języków, realne dane z miejsc pracy — i potwierdziła to, co twoje przeczucie już dawno podpowiadało: satysfakcja deweloperów dramatycznie się różni między narzędziami opartymi na modelach, których wyniki na SWE-bench mieszczą się w błędzie zaokrąglenia. Benchmark pokazuje remis trzech. Deweloperzy zdecydowanie się nie zgadzają.

To nie jest nowe odkrycie. Już w lutym OpenAI ogłosiło zgon SWE-bench Verified. Sekcja zwłok wykazała: GPT-5.2, Claude Opus 4.5 i Gemini 3 Flash potrafiły odtworzyć dosłowne rozwiązania gold-patch z pamięci — na podstawie samego ID zadania. Modele nie rozwiązywały problemów. Recytowały zapamiętane odpowiedzi. OpenAI zaudytowało też 27,6% zadań zakończonych niepowodzeniem i odkryło, że 59,4% miało wadliwe testy, które odrzucały funkcjonalnie poprawny kod. Benchmark nie tylko testował zapamiętywanie — dodatkowo oznaczał poprawne rozwiązania jako błędne.

Aktualny ranking na 13 kwietnia 2026 potwierdza absurd: Claude Opus 4.5 na 80,9%, Opus 4.6 na 80,8%, Gemini 3.1 Pro na 80,6%. Trzy modele frontier w obrębie 0,3 punktu procentowego. Statystyczny remis przebrany za wyścig koni.

Zmienna, której nikt nie benchmarkuje

Skoro wynik nie wyjaśnia przepaści w satysfakcji, to co? Strategia kontekstu — ile z twojego projektu narzędzie faktycznie rozumie, zanim napisze choćby jedną linijkę.

SWE-bench testuje izolowane poprawki bugów w dobrze udokumentowanych repozytoriach open-source. Ty spędzasz dni na wieloplikowej pracy nad ficzerami w prywatnych codebase'ach pełnych wiedzy plemiennej i tego jednego pliku konfiguracyjnego, który Krzysiek napisał w 2019 roku i którego nikt nie waży się dotknąć. Oto jak każde większe narzędzie podchodzi do tego problemu — i gdzie się sypie:

Claude Code czyta twoje drzewo katalogów i pliki instrukcji CLAUDE.md — plain-textowe dokumenty, w których uczysz AI konwencji projektu, zabronionych wzorców i decyzji architektonicznych. Wysyła pełną zawartość plików do okna kontekstu: prawdziwy kod, nie streszczenia. Limit: okna kontekstu są skończone. Przy monorepo z 50 000 plików nie zmieści wszystkiego na raz i polega na twoich plikach instrukcji, żeby wskazać mu co jest ważne. Leniwy CLAUDE.md, leniwe wyniki. Narzędzie jest tak mądre, jak mapa, którą mu narysujesz.

Cursor podchodzi odwrotnie. Jego funkcja @Codebase buduje własnościowy indeks wektorowy — bazę embeddingów semantycznego znaczenia twojego kodu. Kiedy pytasz, wyszukuje najbardziej pasujące fragmenty przez similarity search, nawigując duże codebase'y bez ładowania wszystkiego do kontekstu. Tryb awarii: embeddingi tracą relacje strukturalne. Funkcja wywołująca trzy helpery w dwóch plikach może pasować semantycznie, ale indeks nie łapie łańcucha zależności. Indeks też się opóźnia względem edycji w dużych projektach — zmieniasz plik, a przez kolejne kilka minut AI odpowiada na pytania o starą wersję.

GitHub Copilot używa Knowledge Bases w wersji Enterprise (39$/użytkownik/miesiąc) — zaindeksowane repozytoria plus dokumentacja, którą Copilot pobiera podczas generowania kodu. Potrafi łączyć informacje z wielu repozytoriów, co pasuje do architektur mikroserwisowych. Haczyk, o którym nikt nie mówi: darmowy i Pro tier nie dostają nic z tego. Większość indywidualnych deweloperów odpala Copilota z zerowym kontekstem na poziomie projektu — tylko otwarty plik i może sąsiedni tab. Przepaść między Enterprise Copilot a zwykłym Copilotem jest większa niż różnica między dowolnymi dwoma narzędziami na rankingu.

Zed parsuje kod strukturalnie przez Tree-sitter — widzi abstrakcyjne drzewa składni, nie płaskie stringi. Rozumie zasięgi, granice funkcji i zagnieżdżenia natywnie. Szybki i lekki. Kompromis: składnia bez semantyki. Tree-sitter wie, że funkcja istnieje i jak się nazywa, ale nie wie, co robi ani dlaczego ma znaczenie. Do boilerplate'u i edycji jednego pliku: precyzyjny. Do pytania "jak auth middleware wpływa na ten endpoint API trzy paczki dalej?": poza zasięgiem.

Ten sam tier modeli. Radykalnie różne rozumienie projektu. Dane o satysfakcji zaczynają nabierać sensu.

Simon Willison argumentował już w październiku 2025, że najlepsza strategia kontekstu to nie wymyślne pliki instrukcji — to nudne podstawy: automatyczne testy (w jednym projekcie odpala ich 1500), interaktywne serwery deweloperskie, dobrze zorganizowane Issues na GitHubie. Tłumaczenie: piszcie testy, zwierzęta. Najwymyślniejsza konfiguracja kontekstu na świecie nie uratuje kodu, który nie ma test suite'a, żeby się sam sprawdzić. Ma irytująco dużo racji — ale to nie jest albo-albo. Dobra strategia kontekstu plus solidny test suite to dopiero prawdziwy efekt kumulacji.

Cena, której nie widzisz na metce

Oto pułapka, której nikt nie wlicza w porównanie: każda strategia kontekstu powyżej jest własnościowa i nieprzenośna. Twoje pliki CLAUDE.md nic nie znaczą dla Cursora. Twój indeks Cursora nie przeniesie się do Copilota. Zmiana narzędzia oznacza naukę całego projektu od zera — godziny konfiguracji, tygodnie dostrajania promptów i dokumentacji.

Subskrypcja 20$/miesiąc to tania część. Droga część to wiedza instytucjonalna, którą wlewasz w specyficzny format jednego narzędzia.

I wisienka na torcie: żaden standardowy benchmark nie mierzy rozumienia codebase'u. OpenAI poleciło SWE-bench Pro jako zamiennik Verified jeszcze w lutym, ale po dwóch miesiącach adopcja jest znikoma, a Pro wciąż testuje izolowane zadania. Modele zdobywające ~80% na Verified spadają do mniej więcej 23% na Pro. Nikt nie zbudował benchmarku, który testuje to, co faktycznie ma znaczenie.

Co to oznacza dla ciebie

Przestań czytać rankingi. Liczba, którą porównujesz, to wynik z zapamiętywania na zepsutym teście.

Wybierz dwa-trzy narzędzia, odpal każde na swoim repo przez tydzień i śledź dokładność na zadaniach wymagających rozumienia wielu plików naraz — takich, jakie faktycznie robisz na co dzień. Zwróć uwagę na czas konfiguracji, bo to jest twój koszt zmiany narzędzia na zawsze.

Wyścig modeli uderzył w sufit na ~81%. Wyścig kontekstu dopiero się zaczął i nikt nie prowadzi tablicy wyników. To albo przerażające, albo największa szansa w narzędziach deweloperskich w tej chwili — w zależności od tego, czy jesteś vendorem, czy deweloperem z wolnym tygodniem na uczciwy test.

SWE-bench nie zyje. Oto na czym naprawde rywalizuje twoje narzedzie AI do kodowania.

10 000 deweloperów potwierdza: ranking kłamie

Zmienna, której nikt nie benchmarkuje

Cena, której nie widzisz na metce

Co to oznacza dla ciebie

Keep reading

Cztery narzedzia AI wypuscily rownoleglych agentow. Zadne nie rozwiazalo git merge.

OpenAI nie wygral wyscigu AI - kupil tablice wynikow

Nie da sie przetestowac twojego agenta AI. Zadnego z SDK to nie obchodzi.

Grok padl na dwa dni w trakcie wlasnego tygodnia premier