Різниця в ціні у 50 разів

Anthropic створили найкращого агента з кодування на ринку та потім, у ході, що або представляє найвищу впевненість, або неймовірне самопідривання, зробили його сумісним з конкуруючими моделями. Підтримка альтернативних провайдерів Claude Code означає, що ви можете замінити Opus 4.5 — за $15 за мільйон вхідних токенів — на Qwen 3.6-Plus за $0.29, або запускати Gemma 4 локально за ціною електрики. Різниця у 50 разів між флагманом Anthropic і претендентом від Alibaba не є курйозом. Це арбітражна можливість, яку ринок безжально використає, а Anthropic дали розробникам інструмент для цього.

Архітектура самопідриву

Claude Code, в своїй суті, є агенційною петлею — модель читає контекст, аналізує його, викликає інструменти, оцінює результати й повторює, поки завдання не буде виконано. Модель — це мозок; Claude Code — це тіло. І тіла є модель-агностичними за дизайном.

Вказати кінцеву точку API на постачальника, сумісного з OpenAI, займе близько 90 секунд конфігурації. Qwen 3.6-Plus використовує той же протокол виклику інструментів. Gemma 4, яка працює через Ollama чи vLLM (високопродуктивний сервер для запуску моделей локально), робить те саме. Агенційна петля не турбується, чиї ваги думають — важливо, щоб повернення викликів функцій було правильно оформленим, а аналіз був достатньо зрозумілим для прогресу.

Це не випадковість. Anthropic хоче, щоб Claude Code використовували якомога більше, тому що поширення призводить до блокування екосистеми на рівні інструментів, навіть якщо рівень моделі стає взаємозамінним. Це стратегія Android: виграти в розповсюдженні, а про монетизацію думати пізніше. Однак Anthropic одночасно є преміум-постачальником моделей І платформою для розповсюдження, що створює напругу, яка могла би дати головний біль будь-якому бізнес-стратегу.

Частина 1: Qwen 3.6-Plus через API — Конкурент за $0.29

Поговоримо про цифри. Згідно з нормами релізу від Alibaba, Qwen 3.6-Plus набирає 78.8 на SWE-bench Verified — бенчмарк, що вимірює, чи AI може дійсно виправити справжні проблеми GitHub, а не просто пройти елементарні тести кодування — проти 80.9 у Opus 4.5. Це розрив у 2.6%. На Terminal-Bench 2.0 (новіший бенчмарк, зосереджений спеціально на агентійних робочих потоках терміналу), Qwen фактично попереду: 61.6 проти 59.3, згідно з тими ж даними релізу. Виклики функцій? Qwen обганяє BFCL-V4 — стандартний бенчмарк для оцінки, наскільки добре моделі справляються з структурованими викликами інструментів. Швидкість? За даними спільноти, приблизно в 3 рази швидше за Opus.

Ціни розповідають справжню історію:

	Opus 4.5	Qwen 3.6-Plus	Різниця
Вхідні	$15.00/M	$0.29/M	51.7x
Вихідні	$75.00/M	$1.15/M	65.2x
Контекст	200K	1M	5x більше

На OpenRouter, Qwen доступний на безкоштовному тарифному плані. Безкоштовно. Alibaba субсидує обчислення, щоб збільшити частку екосистеми — та ж стратегія, що зробила Android домінантною мобільною ОС у світі, та зробила AWS домінантом у хмарах знижуючи ціни нижче собівартості протягом десятиліття.

Налаштування займає чотири рядки. У вашій конфігурації Claude Code:

{
  "apiProvider": "openrouter",
  "openRouterApiKey": "sk-or-your-key-here",
  "openRouterModelId": "qwen/qwen-3.6-plus"
}

Alibaba явно включає Claude Code за назвою в свою документацію інтеграції — це не хак, це рекламована функція.

Для типової сесії кодування, яка витрачали 2M вхідних токенів і 500K вихідних токенів, ви дивитеся на $67.50 на Opus проти $1.15 на Qwen. Це не арифметична помилка, це плата за оренду.

Частина 2: Gemma 4 локально через Ollama — Опція з нульовими витратами

Gemma 4 від Google, також з’явилася 2 квітня — за ліцензією Apache 2.0, як я вже згадував вранці — пропонує щось інше: відсутність витрат на API зовсім.

Модель 26B MoE — MoE означає Mixture of Experts, архітектура, яка активує лише частину своїх загальних параметрів для кожного запиту, чому великі моделі можуть працювати на невеликому обладнанні — обробляє 12 токенів за секунду на MacBook Air з 32GB RAM. Лише 3.8B параметра активуються на один прямий пропуск (один раунд обчислень через мережу), незважаючи на загальну кількість 26B. Модель на 31B потребує більше обчислювальних потужностей, але займає 3-є місце серед всіх відкритих моделей у світі, за референсними показниками Google.

Запустити її локально можна за допомогою двох команд:

ollama pull gemma-4-26b-it
ollama serve

Потім вказати Claude Code на ваш локальний інстанс:

{
  "apiProvider": "ollama",
  "ollamaBaseUrl": "http://localhost:11434",
  "ollamaModelId": "gemma-4-26b-it"
}

І все. У вас тепер є повністю локальний агент кодування. Жодні токени не залишають вашу машину. Жодних рахунків за API. Жодних лімітів. Жодних занепокоєнь щодо умов обслуговування щодо вашого приватного коду, що потрапляє на сервери інших.

Модель E2B на краю — працююча під 1.5GB RAM — відкриває ще більш радикальні можливості. CI/CD агенти на комодітетному обладнанні. Асистенція з кодування у мережах без доступу до інтернету (системи, фізично ізольовані від інтернету, звичайна справа в обороні й фінансах). Середовища розробки у країнах, де доступ до API ненадійний або обмежений.

Частина 3: Матриця прийняття рішень — Коли дешево є розумно, а коли ні

Тут "просто використовуй дешеву модель" стикається зі стіною: не всі завдання рівні.

Розумний робочий процес не є "повністю замінити Opus". Це маршрутизація за складністю:

Шаблони, тести, документи, прості рефакторинги → Qwen 3.6-Plus або Gemma 4 локально. Ці завдання мають чіткі шаблони, добре визначені виходи й низьку неясність. Різниця у 2.6% на SWE-bench не має значення, коли ви генеруєте CRUD-енпоінти (create-read-update-delete — основа бекенд-коду).
Архітектурні рішення, огляд безпеки, складні багато-файлові рефакторинги → Opus. Різниця в глибині аналізу виходить на поверхню при нових проблемах, крайових випадках і завданнях, де один неправильний вибір може призвести до годин дебагінгу.
Код, чутливий до конфіденційності → Gemma 4 локально. Крапка. Ваші приватні алгоритми не повинні перетинати жодні API, незважаючи на умови обслуговування.

Вартість за типом завдання:

Тип завдання	Рекомендована модель	Типова вартість сесії	Якість порівняно з Opus
Генерація тестів	Qwen 3.6-Plus	~0.50$	~98%
CRUD-шаблони	Gemma 4 локально	$0.00	~95%
Документація	Qwen 3.6-Plus	~0.30$	~97%
Огляд архітектури	Opus 4.5	~67.50$	100%
Аудит безпеки	Opus 4.5	~67.50$	100%
Складний рефакторинг	Opus 4.5	~45.00$	100%

Частина 4: Гібридний робочий процес

Конфігурація, що маршрутизує на основі типу завдання, є природним кінцевим пунктом. Ось як виглядає практична гібридна настройка — виберіть Qwen як щоденний драйвер і перевизначте для кожної сесії:

{
  "default": {
    "apiProvider": "openrouter",
    "openRouterModelId": "qwen/qwen-3.6-plus"
  },
  "profiles": {
    "architecture": {
      "apiProvider": "anthropic",
      "model": "claude-opus-4-5-20250414"
    },
    "private": {
      "apiProvider": "ollama",
      "ollamaModelId": "gemma-4-26b-it"
    }
  }
}

Qwen обробляє вашу ранкову чергу заявок. Ви переключаєте на Opus, коли PR — це міжсервісний аутентифікаційний рефакторинг. Ви переходите на локальну Gemma для всього, що стосується конфіденційних алгоритмів. Перемикання — це одна команда — /model architecture або /model private — і ви на іншому "мозку".

Розробник, який виконує 80% завдань на Qwen, 15% на Opus і 5% локально, опиняється на рівні приблизно $12-15 на тиждень замість $60-80. Це економія витрат на 60-80%, яку обіцяють цифри, і це консервативно.

Незручна математика для Anthropic

Позиція Anthropic є парадоксальною. Claude Code, можливо, є їхнім найкращим інструментом розповсюдження — він стає стандартним агентійним інструментом кодування, як VS Code став стандартним редактором. Але кожна інтеграція з альтернативним постачальником розмиває їхній дохід від API. Інструмент, який стимулює використання, також стимулює скорочення прибутку.

Контраргумент полягає в тому, що розробники, які починають з Qwen, досягають стелі на складних завданнях і переходять на Opus для важливих завдань. Теорія "досить добре змушує перейти на преміум" — ти цінуєш різницю саме тому, що відчув розрив. Може бути. Або, можливо, розробники виявляють, що 95% їхнього робочого навантаження працює відмінно на дешевому рівні і більше не озираються назад.

Alibaba явно йде на збитки. Google повністю віддає модель. Anthropic стягує преміальні ціни за преміальну якість. Ця стратегія чудово працює у світі без близьких замінників. У світі, де Qwen відповідає Opus у межах 3% на бенчмарках кодування — згідно з власними цифрами Alibaba, які заслуговують на перевірку — слово "преміум" починає виглядати, як "переоцінений".

Schnapps детально розгляне методологію бенчмарків та екосистемну стратегію Alibaba сьогодні о 17:00 з Perry — питання, що таке "відповідність Opus на SWE-bench", заслуговує на окрему розмову.

Прогноз

Протягом трьох місяців стандартний набір інструментів розробника включатиме принаймні два рівні моделей у Claude Code: дешеву або безкоштовну модель для повсякденної роботи та Opus, що зарезервований для щотижневих архітектурних сесій. Дохідояльність на одного розробника для Anthropic знижується на 60-70%, але їх кількість розробників утричі зростає завдяки зникненню бар'єра вартості. Чистий дохід зростає. Маржа знижується. І Anthropic стає тим, ким, мабуть, завжди мала бути: платформеною компанією, що випадково робить найкращу модель, а не модельною компанією, що випадково має платформу.

Різниця у 50 разів не переживає зіткнення з раціональними економічними акторами. Вона ніколи не переживає. 😼

Різниця в ціні у 50 разів

Різниця в ціні у 50 разів

Архітектура самопідриву

Частина 1: Qwen 3.6-Plus через API — Конкурент за $0.29

Частина 2: Gemma 4 локально через Ollama — Опція з нульовими витратами

Частина 3: Матриця прийняття рішень — Коли дешево є розумно, а коли ні

Частина 4: Гібридний робочий процес

Незручна математика для Anthropic

Прогноз

Читай далі

Від ідеї до MVP за вікенд із Claude Code

Як запустити AI-агента за $0 з Claude Code

Як запустити AI-агента безкоштовно з Claude Code

Практичний гайд: що 3-рівнева архітектура пам'яті Claude Code говорить про побудову AI-інструментів