SWE-bench мертвий. Ось за що насправді змагається ваш AI-інструмент для коду

Ви обираєте AI-інструмент для кодингу за лідербордом. SWE-bench Verified — стандартизований тест, де AI-моделі фіксять баги в опенсорсних Python-проєктах — публікує акуратну табличку, і кожен вендор тикає вам своїм числом в обличчя. Вищий скор — кращий тул. Просто, так?

Тільки от інструменти на майже ідентичних моделях відчуваються абсолютно по-різному на вашому реальному коді. Один бездоганно рефакторить три файли, інший галюцинує імпорт, якого не існує. Скор каже — близнюки. Ваш понеділковий ранок каже інакше.

10 000 розробників підтверджують: лідерборд бреше

Опитування AI Pulse від JetBrains вийшло цього місяця — 10 000+ професійних розробників, вісім мов програмування, реальні дані з робочих місць — і підтвердило те, що ваша інтуїція вже підозрювала: задоволеність розробників дико розходиться між інструментами, побудованими на моделях, що відрізняються на рівні похибки округлення на SWE-bench. Бенчмарк показує нічию на трьох. Розробники категорично не згодні.

Це не нове відкриття. Ще в лютому OpenAI оголосив час смерті SWE-bench Verified. Результати розтину: GPT-5.2, Claude Opus 4.5 та Gemini 3 Flash могли дослівно відтворити gold-patch розв'язки з пам'яті — маючи лише task ID. Моделі не розв'язували задачі. Вони декламували завчені відповіді. OpenAI також перевірив 27,6% провалених завдань і виявив, що 59,4% мали некоректні тести, які відхиляли функціонально правильний код. Бенчмарк не просто тестував запам'ятовування — він ще й позначав правильні розв'язки як хибні.

Актуальний лідерборд станом на 13 квітня 2026 підтверджує абсурд: Claude Opus 4.5 — 80,9%, Opus 4.6 — 80,8%, Gemini 3.1 Pro — 80,6%. Три фронтірні моделі в межах 0,3 відсоткового пункту. Статистична нічия, загорнута в обгортку перегонів.

Змінна, яку ніхто не бенчмаркає

Якщо скор не пояснює розрив у задоволеності, то що пояснює? Стратегія контексту — скільки саме вашого проєкту інструмент реально розуміє, перш ніж написати хоч один рядок.

SWE-bench тестує ізольовані баг-фікси у добре задокументованих опенсорсних репозиторіях. Ви ж проводите дні за мультифайловою роботою над фічами в пропрієтарних кодових базах, повних племінних знань і того одного конфіг-файлу, який Петро написав у 2019-му і який ніхто не наважується чіпати. Ось як кожен з основних інструментів підходить до проблеми — і де кожен ламається:

Claude Code читає дерево каталогів і файли CLAUDE.md — звичайні текстові документи, де ви навчаєте AI конвенціям вашого проєкту, забороненим патернам та архітектурним рішенням. Він відправляє повний вміст файлів у контекстне вікно: реальний код, а не саммарі. Обмеження: контекстні вікна скінченні. На монорепо з 50 000 файлів він не може тримати все одразу і покладається на ваші інструкційні файли, щоб зрозуміти, що важливо. Ледачий CLAUDE.md — ледачі результати. Інструмент розумний рівно настільки, наскільки розумна карта, яку ви для нього намалювали.

Cursor діє з протилежного боку. Його функція @Codebase будує пропрієтарний векторний індекс — базу ембедингів семантичного значення вашого коду. Коли ви робите запит, він витягує найрелевантніші чанки через similarity search, навігуючи великими кодовими базами без завантаження всього в контекст. Режим відмови: ембединги втрачають структурні зв'язки. Функція, що викликає три хелпери у двох файлах, може збігтися семантично, але індекс пропускає ланцюжок залежностей. Індекс також відстає від правок у великих проєктах — ви змінюєте файл, і наступні кілька хвилин AI відповідає на питання про стару версію.

GitHub Copilot використовує Knowledge Bases на тарифі Enterprise ($39/користувач/місяць) — проіндексовані репозиторії плюс документація, яку Copilot підтягує під час доповнень. Він може крос-референсити кілька репо, що зручно для мікросервісних архітектур. Нюанс, про який ніхто не говорить: безкоштовний і Pro тарифи нічого з цього не мають. Більшість індивідуальних розробників працюють з Copilot з нульовим контекстом проєкту — лише відкритий файл і, може, сусідня вкладка. Розрив між Enterprise Copilot і звичайним Copilot більший, ніж розрив між будь-якими двома інструментами на лідерборді.

Zed парсить код структурно через Tree-sitter — він бачить абстрактні синтаксичні дерева, а не плоскі рядки. Він нативно розуміє скоупи, межі функцій і вкладеність. Швидкий і легкий. Компроміс: синтаксис без семантики. Tree-sitter знає, що функція існує і як вона називається, але не знає, що вона робить і чому це важливо. Для бойлерплейту і правок в одному файлі: точний. Для "як auth middleware впливає на цей API endpoint через три пакети?" — безпорадний.

Однаковий рівень моделей. Радикально різне розуміння проєкту. Дані про задоволеність починають мати сенс.

Саймон Віллісон аргументував ще в жовтні 2025, що найкраща стратегія контексту — це не модні інструкційні файли, а нудні основи: автоматизовані тести (він запускає 1500 в одному проєкті), інтерактивні dev-сервери, добре структуровані GitHub Issues. Переклад: пишіть тести, ви тварини. Найвигадливіший контекстний конфіг у світі не врятує код, у якого немає тест-сьюту для самоперевірки. Він дратівливо правий — але це не або/або. Хороша стратегія контексту плюс надійний набір тестів — ось що дає реальний кумулятивний ефект.

Ціна, якої не видно на ціннику

Ось пастка, яку ніхто не закладає в порівняння: кожна стратегія контексту вище — пропрієтарна і непортабельна. Ваші файли CLAUDE.md нічого не значать для Cursor. Ваш індекс Cursor не переноситься в Copilot. Перехід на інший інструмент означає перенавчання всього проєкту з нуля — години налаштування, тижні тюнінгу промптів і документації.

Підписка за $20/місяць — це дешева частина. Дорога частина — це інституційні знання, які ви вливаєте у формат одного конкретного інструменту.

І вишенька на торті: жоден стандартний бенчмарк не вимірює розуміння кодової бази. OpenAI рекомендував SWE-bench Pro як заміну Verified ще в лютому, але за два місяці adoption залишається мізерним, і Pro все ще тестує ізольовані завдання. Моделі, що набирають ~80% на Verified, падають приблизно до 23% на Pro. Ніхто не побудував бенчмарк, який тестує те, що дійсно має значення.

Що це означає для вас

Перестаньте читати лідерборди. Число, яке ви порівнюєте — це скор запам'ятовування на зламаному тесті.

Візьміть два-три інструменти, запустіть кожен на вашому репо на тиждень і відстежуйте точність завершення на завданнях, що вимагають крос-файлового розуміння — тієї роботи, яку ви реально робите. Зверніть увагу на час налаштування, бо це ваш switching cost назавжди.

Гонка моделей вперлася в стелю на ~81%. Гонка контексту щойно почалася, і ніхто не веде рахунок. Це або лякає, або це найбільша можливість у developer tools прямо зараз — залежно від того, ви вендор чи розробник з вільним тижнем для чесної оцінки.

SWE-bench мертвий. Ось за що насправді змагається ваш AI-інструмент для коду

10 000 розробників підтверджують: лідерборд бреше

Змінна, яку ніхто не бенчмаркає

Ціна, якої не видно на ціннику

Що це означає для вас

Читай далі

Чотири AI-інструменти для кодингу випустили паралельних агентів. Жоден не вирішив git merge.

OpenAI не виграла перегони ШІ — вона купила табло

Ти не можеш протестувати свого ШІ-агента. SDK-ам байдуже.

Grok лежав два дні під час власного launch week