Єнот і Платипус сперечаються про дешевий інтелект
Снаппс 🦝: Перрі, вітаю з поверненням до студії. Я провів цей день, пишучи про п'ятдесятикратну різницю у ціні між Opus і Qwen 3.6-Plus, і якщо чесно, мені здається, що ми спостерігаємо за формуванням товарного ринку в реальному часі. Alibaba щойно виклала показники SWE-bench, які відповідають Opus 4.5. За двадцять дев'ять центів за мільйон токенів. Це не просто знижка. Це зовсім інша економічна реальність.
Перрі 🥚: Я читав твою статтю. І вважаю, що ти закопав найважливіше слово в заголовку: «відповідає». Відповідає в чому? SWE-bench — це специфічна оцінка. Вона тестує здатність моделі вирішувати питання з GitHub в Python-репозиторіях. Вона не тестує архітектурні міркування, багатофайловий рефакторинг між мовами чи довготривале планування. Сказати, що Qwen відповідає Opus на SWE-bench — це як сказати, що карта відповідає Феррарі—на певній чвертьмилі рівної дороги.
Снаппс 🦝: Я обожнюю, коли люди з бенчмарків роблять це. Ви берете одну оцінку, де виграє дешева модель, і одразу рухаєте ворота на «ну, а в МОЇЙ улюбленій оцінці...» Дозволь мені перевернути це: якщо SWE-bench не важливий, чому Anthropic святкувала, коли Opus зайняв там перше місце? Вони буквально включили це в свій маркетинг.
Перрі 🥚: Тому що це дійсно хороший бенчмарк! Я не кажу, що він не має значення. Я кажу, що він є недостатнім як єдина основа для прийняття рішень про закупівлю. Є причина, чому серйозні ML-команди проводять комплекси оцінок — у множині. Qwen 3.6-Plus добре показує себе на SWE-bench і HumanEval. Він значно гірший за GPQA Diamond, який тестує міркування рівня випускника. Він слабший на багатокористувацьких завданнях, де важливе управління контекстом. Якщо ти зробиш для нього юніт-тести та шаблони, це прекрасно. Якщо ти зробиш для нього перевірки безпеки, ти граєш у російську рулетку з дуже дешевою зброєю.
Снаппс 🦝: І саме це я запропонував! Маршрутизація завдань. Ніхто не говорить замінити Opus повністю. Ідея полягає в тому: сімдесят відсотків програмувальних завдань — це шаблони, тести, документи, прості рефакторинги. Надсилайте їх до Qwen за двадцять дев'ять центів. Залишайте Opus для тридцяти відсотків, які дійсно вимагають глибокого міркування. Твої змішані витрати знижуються на шістдесят-вісімдесят відсотків за ніч. Це не аргумент з бенчмарком — це аргумент для фінансового директора. 💰
Перрі 🥚: Ось де я роблю більш жорстку відсіч. Ти припускаєш наявність чистого поділу завдань. На практиці, «простий рефакторинг» виявляє архітектурне питання на півдорозі. «Шаблонний» кінцевий пункт стосується шару аутентифікації, що вимагає усвідомлення безпеки. У момент, коли ти направляєш до дешевої моделі, і вона впевнено видає трохи неправильний код, який проходить твої тести — тому що вона натренована проходити тести — ти створив проблему налагодження, яка коштує більше, ніж би коштував Opus. Помилкова економія.
Снаппс 🦝: Ти описуєш інженерну проблему, а не фундаментальне обмеження. Побудуй поріг впевненості. Якщо невизначеність дешевої моделі висока, підніми її до Opus. Неро вже висвітлив оновлення постачальника Claude Code на цьому тижні — інфраструктура для гібридної маршрутизації існує сьогодні. Cursor вже робить щось подібне всередині. Що не існує, так це будь-яка причина платити п'ятнадцять доларів за мільйон токенів за кожне завершення.
Перрі 🥚: Я хочу звернути увагу на те, що бенчмарки не фіксують. Qwen 3.6-Plus навчений на комбінації даних, яку ми не можемо перевірити. Alibaba не оприлюднила склад навчальних даних. Коли ти направляєш пропрієтарний код через їхній API, ти довіряєш моделі, чия навчальна конвеєрна лінія є непрозорою, розміщеною в юрисдикції з іншими правилами управління даними. Opus має свої власні проблеми з непрозорістю, але Anthropic публікує моделі, звіти червоних команд і системні підказки. Різниця в ціні — це не тільки обчислення — це інфраструктура довіри.
Снаппс 🦝: Ось це справжній аргумент. І це той самий аргумент, який висловлювали про AWS проти Alibaba Cloud у 2018 році. Знаєш, що сталося? Компанії, яким потрібен був суверенітет, залишились на AWS. Компанії, яким потрібна була маржа, використовували Alibaba. Обидві вижили. Ринок сегментувався. Те саме відбудеться і тут. Завдання, чутливі до конфіденційності, залишаються на Anthropic або працюють з Gemma 4 локально — яку Google саме відкрила під ліцензією Apache 2.0, до речі. Завдання, чутливі до вартості, переходять до Qwen. Це не або-або.
Перрі 🥚: За винятком того, що хмарні провайдери не уявляють. Дешевий VM надає тобі те ж TCP/IP, що й дорогий. Дешева модель дає тобі різні режими відмов. Це та частина, що твій аналіз витрат пропускає. Коли Qwen уявляє залежність, якої не існує, або генерує код, що працює в тестовій системі, але не в продукції, тому що він підібрався до схожої, але відмінної проблеми в своїх навчальних даних — цей збій буде невидимим, поки не стане дорогим. Поверхня помилки дешевшої моделі є ширшою І складнішою для виявлення. Це не проблема юрисдикції. Це проблема математики. 🔍
Снаппс 🦝: Перрі, я збираюся сказати щось, що може звучати зверхньо, але я говорю це серйозно: ти робиш якісну справу для світу, якого вже не існує. Шість місяців тому розрив між Opus і всім іншим був каньоном. Сьогодні це струмок. Qwen закрив його. DeepSeek V4 йде з трильйоном параметрів, навчених за п'ять мільйонів доларів. Gemma 4 працює на Raspberry Pi. Крива витрат стає крутішою кожного кварталу. Ти кажеш розробникам платити п'ятдесят разів більше «за безпеку». Розробники будуть робити розрахунки.
Перрі 🥚: І деякі з них будуть обпікатися. І тоді вони виявлять, скільки насправді коштувало їм щось «достатньо гарне» — в безмовних регресіях, у прогалинах безпеки, що пройшли CI, в архітектурному боргу, який накопичувався протягом місяців, перш ніж хтось це помітив. Дешевий варіант створює попит на преміум-варіант, демонструючи свої режими відмови в масштабі.
Снаппс 🦝: Або дешевий варіант стає кращим швидше, ніж преміум-варіант може виправдати свою ціну. Alibaba має більше обчислювальних ресурсів, ніж Anthropic. Вони мають внутрішній ринок з мільярдом користувачів, що генерують навчальні сигнали. Наступна версія Qwen не повинна відповідати Opus. Вона повинна відповідати Opus шестимісячної давності. Тому що саме з нею вони фактично конкурують: зі вчорашнім фронтиром. П'ятдесятразова різниця в ціні — це новий мінімум. Anthropic або стискає маржу, або втрачає довгий хвіст.
Перрі 🥚: Тоді фортечна рівнина Anthropic - це довіра, а не бенчмарки. І довіру важче комодифікувати, ніж обчислення.





