Open source AI наздоганяє швидше, ніж ви думаєте

У 2023 році запропонувати open source модель для продакшену означало поставити хрест на кар'єрі. Розрив між найкращими безкоштовними моделями та GPT-4 — це був не розрив, а каньйон, видимий з орбіти. Пропрієтарний AI був єдиним серйозним варіантом. Це знали всі.

І всі мали рацію. В минулому часі.

Каньйон став бордюром

Станом на 31 березня 2026 року, Artificial Analysis Intelligence Index — композитний бал, що вимірює продуктивність AI у математиці, науці, кодингу та reasoning — ставить найкращу пропрієтарну модель (Gemini 3.1 Pro) на 57 балів. Найкраща модель з відкритими вагами, GLM-5 від Zhipu AI, набирає 50. Claude Opus 4.6 сидить на 53.

Сім балів. Ось вся відстань між 'платіть нам купу грошей' і 'запускайте самі безкоштовно'. Три роки тому цю відстань можна було виміряти лише в одиницях сорому.

Цифри, від яких вендорам закритих моделей має стати тривожно

Поговоримо конкретно.

Команда Qwen від Alibaba випустила Qwen3-Coder-Next 4 лютого 2026 — модель для кодингу на архітектурі MoE (Mixture of Experts — дизайн, де модель активує лише малу частину свого 'мозку' для кожної задачі, економлячи обчислення без втрати розуму). Вона набирає 70.6% на SWE-Bench Verified — бенчмарку, що тестує, чи може модель реально виправляти баги в реальних кодових базах. Не іграшкові задачки. Реальні GitHub issues.

DeepSeek випустив V3.2 1 грудня 2025 — модель на 685 мільярдів параметрів (параметри — це навчені зв'язки в нейромережі; більше зазвичай означає розумніше, але й важче) з контекстним вікном 128K (скільки тексту модель може 'бачити' одночасно — 128K це приблизно книга на 300 сторінок). Набирає 70–74% на тому ж бенчмарку залежно від налаштувань оцінки.

Zhipu AI випустила GLM-5 11 лютого 2026 — звір на 744 мільярди параметрів, з яких лише 40 мільярдів активні завдяки власному MoE-дизайну. Набирає 77.8% на SWE-Bench Verified. Zhipu поширює її під MIT-ліцензією — тобто будь-хто може використовувати для чого завгодно, комерційно, без жодних обмежень.

Це будували організації з мільярдними бюджетами. Не ентузіасти. Не програмісти вихідного дня. Компанії, що ставляться до AI як до інфраструктури.

Економіка, що змінює все

Ось тут пропрієтарним вендорам стає некомфортно.

Самостійний хостинг відкритої моделі на нормальному GPU-залізі коштує приблизно $2 000–10 000 на місяць залежно від обсягу трафіку. Еквівалентні API-виклики до GPT-5 чи Claude Opus для такого ж навантаження? $20 000–100 000 на місяць. На великих обсягах — від 100 мільйонів токенів на день — економія на self-hosting сягає 40–90%.

Для стартапу, що палить runway, це не оптимізація. Це різниця між виживанням і постом 'ми з сумом повідомляємо' у блозі.

І є ще китайський фактор, який не можна ігнорувати. Qwen (Alibaba), DeepSeek (High-Flyer) та GLM (Zhipu AI) — всі з китайським фінансуванням. Коли країна з 1.4 мільярда населення вирішує субсидувати розробку AI і роздавати результати під MIT-ліцензією, конкурентний ландшафт не зміщується — він тріщить.

Але зачекайте

Бенчмарки брешуть. Кожен інженер, який деплоїв ці моделі, знає: прірва між 'набирає бали на тесті' і 'стабільно працює, коли юзер робить щось дивне' — величезна.

OpenAI та Anthropic шліфують свої моделі через RLHF (reinforcement learning from human feedback — по суті, тисячі людей кажуть моделі 'гарна відповідь' або 'жахлива відповідь', доки вона не навчиться краще справлятися зі складним). Відкриті моделі не можуть легко відтворити такий масштаб людської курації.

Різниця в 7 балів на середніх бенчмарках маскує значно більший розрив на хвості складності. Коли ваш AI-агент зустрічає топ-5% найскладніших запитів — нестандартний reasoning, незнайомі патерни коду, двозначні інструкції — Claude і GPT-5 все ще помітно відриваються.

Self-hosting теж не безкоштовний. Запуск моделі на 685B параметрів потребує кількох GPU H100, команди, що розуміє CUDA-дебагінг і тензорний паралелізм (розбиття моделі на кілька чіпів, щоб вона реально працювала), плюс постійний ops-overhead. Для багатьох компаній API реально дешевше, якщо врахувати інженерний час.

І безпека. Будь-хто може файнтюнити відкриті моделі без обмежень. Чудово для кастомізації, тривожно для всього іншого. Захисні механізми, які будує Anthropic — це не просто фічі, а інженерні інвестиції, яким відкриті моделі рідко відповідають.

Фреймворк, який реально працює

Рівень 1 — 70% навантаження: Сумаризація, прості Q&A, класифікація, вилучення структурованих даних. Відкриті моделі справляються бездоганно. Використовувати GPT-5 для цього — все одно що їздити на Ferrari за хлібом.

Рівень 2 — 25% навантаження: Складна генерація коду, нюансоване письмо, багатокроковий reasoning. Відкриті моделі конкурентні, але нестабільні. Пропрієтарні надійніші. Ваш результат залежить від толерантності до випадкових фейлів.

Рівень 3 — 5% навантаження: Фронтирний reasoning, нестандартне розв'язання проблем, найскладніші edge cases. Пропрієтарні моделі виграють. Розрив реальний і вартий оплати.

Компанії, що виграють у 2026, не фанатіють ні від однієї зі сторін. Вони запускають відкриті моделі для основної маси і маршрутизують складне до Claude чи GPT-5. Це не хитра архітектура — це проста арифметика.

Траєкторія — ось що важливо

Розрив від принизливого скоротився до незначного за три роки. Кожен квартал відкриті моделі покращуються швидше, ніж пропрієтарні можуть наростити відрив. Рів ще не зник — але він випаровується в реальному часі.

Дайте ще два роки, і 'open source достатньо хороший' перетвориться на 'open source — це дефолт'.

Якщо ваш бізнес-план будується на тому, що пропрієтарний AI завжди буде драматично кращим — оновіть бізнес-план. Каньйон тепер бордюр. А open source не спотикається об бордюри.

Open source AI наздоганяє швидше, ніж ви думаєте

Каньйон став бордюром

Цифри, від яких вендорам закритих моделей має стати тривожно

Економіка, що змінює все

Але зачекайте

Фреймворк, який реально працює

Траєкторія — ось що важливо

Читай далі

B-Sides, які ніхто не грав

Долар-меню з'їдає стек

Велике Перерозподілення

Чому більшість AI-стартапів провалиться у 2026 році