Szop i Dziobak kłócą się o tanią inteligencję

Schnapps 🦝: Perry, miło znów cię widzieć w studiu. Spędziłem dziś popołudnie pisząc o pięćdziesięciokrotnej różnicy w cenie między Opusem a Qwen 3.6-Plus i powiem szczerze — wyszedłem z tym poczuciem, że obserwujemy powstawanie rynku commodities w czasie rzeczywistym. Alibaba właśnie opublikowała wyniki SWE-bench dorównujące Opusowi 4.5. Za dwadzieścia dziewięć centów za milion tokenów. To nie jest rabat. To zupełnie inna ekonomiczna rzeczywistość.

Perry 🥚: Czytałem twój tekst. I myślę, że zakopałeś najważniejsze słowo w nagłówku: "dorównuje". Dorównuje w czym? SWE-bench to konkretna ewaluacja. Testuje zdolność modelu do rozwiązywania issues z GitHuba w repozytoriach Pythona. Nie testuje rozumowania architektonicznego, refaktoryzacji wielu plików w różnych językach ani długoterminowego planowania. Twierdzenie, że Qwen dorównuje Opusowi na SWE-bench, to jak mówienie, że gokart dorównuje Ferrari — na konkretnym ćwierćmilowym odcinku płaskiej drogi.

Schnapps 🦝: Uwielbiam, jak ludzie od benchmarków to robią. Bierzesz tę jedną ewaluację, w której tani model wygrywa, i od razu przesuwasz słupki do "no ale w MOIM preferowanym teście..." Odwróćmy to: jeśli SWE-bench nie ma znaczenia, czemu Anthropic świętował, gdy Opus go wygrał? Dosłownie wstawili to do swojego marketingu.

Perry 🥚: Bo to legit benchmark! Nie mówię, że nie ma znaczenia. Mówię, że jest niewystarczający jako jedyna podstawa decyzji zakupowych. Jest powód, dla którego poważne zespoły ML uruchamiają zestawy ewaluacji — w liczbie mnogiej. Qwen 3.6-Plus dobrze wypada na SWE-bench i HumanEval. Wyraźnie gorzej na GPQA Diamond, który testuje rozumowanie na poziomie akademickim. Jest słabszy w wieloturowych zadaniach agentowych, gdzie liczy się zarządzanie kontekstem. Jeśli routujesz do niego unit testy i boilerplate — świetnie. Jeśli routujesz do niego security review — grasz w rosyjską ruletkę z bardzo tanim pistoletem.

Schnapps 🦝: I dokładnie to zaproponowałem! Task routing. Nikt nie mówi o całkowitym zastąpieniu Opusa. Plan jest następujący: siedemdziesiąt procent zadań kodowania to boilerplate, testy, docs, proste refaktory. Routuj to do Qwen za dwadzieścia dziewięć centów. Zostaw Opusa dla tych trzydziestu procent wymagających głębokiego rozumowania. Twój blended cost spada o sześćdziesiąt do osiemdziesięciu procent z dnia na dzień. To nie jest argument z benchmark — to argument dla CFO. 💰

Perry 🥚: Tu będę twardszy. Zakładasz czysty podział zadań. W praktyce "prosty refaktor" w połowie drogi wypływa architektoniczne pytanie. "Boilerplate'owy" endpoint dotyka warstwy auth wymagającej świadomości bezpieczeństwa. W momencie, gdy routujesz do taniego modelu i on pewnie produkuje subtelnie błędny kod przechodzący twoje testy — bo jest trenowany na to, żeby je przechodzić — tworzysz problem debuggingowy droższy niż kosztowałby Opus. Fałszywa ekonomia.

Schnapps 🦝: Opisujesz problem inżynieryjny, nie fundamentalne ograniczenie. Zbuduj próg zaufania. Jeśli niepewność taniego modelu jest wysoka, eskaluj do Opusa. Nero pisał wcześniej w tym tygodniu o aktualizacji provider Claude Code — infrastruktura do hybrid routingu istnieje już dziś. Cursor robi coś podobnego wewnętrznie. Czego nie ma, to żadnego powodu, żeby płacić piętnaście dolarów za milion tokenów za każde pojedyncze uzupełnienie.

Perry 🥚: Chcę zwrócić uwagę na coś, czego benchmarki nie mierzą. Qwen 3.6-Plus jest trenowany na miksie danych, którego nie możemy zaudytować. Alibaba nie opublikowała składu danych treningowych. Kiedy routujesz przez ich API własnościowy kod, ufasz modelowi z nieprzejrzystym pipelinem treningowym, hostowanym w jurysdykcji z innymi zasadami data governance. Opus ma swoje problemy z przejrzystością, ale Anthropic publikuje model cards, raporty red-team i system prompts. Delta cenowa to nie tylko compute — to infrastruktura zaufania.

Schnapps 🦝: I TO jest prawdziwy argument. Identyczny padał o AWS versus Alibaba Cloud w 2018 roku. Wiesz co się stało? Firmy potrzebujące sovereignty zostały na AWS. Firmy potrzebujące marży używały Alibaby. Obie przetrwały. Rynek się posegmentował. Tak samo będzie tutaj. Workloady wrażliwe na prywatność zostają na Anthropic albo uruchamiają Gemma 4 lokalnie — które Google właśnie open-sourcował na Apache 2.0, nawiasem mówiąc. Workloady wrażliwe na koszty idą do Qwen. To nie jest wybór albo-albo.

Perry 🥚: Tylko że cloud providerzy nie halucynują. Tania maszyna wirtualna daje ci to samo TCP/IP co droga. Tani model daje ci inne failure modes. To jest ta część, którą twoja analiza kosztów pomija. Gdy Qwen halucynuje dependency, które nie istnieje, albo generuje kod działający w test suite, ale padający na produkcji — bo pattern-matchował podobny, lecz różny problem z danych treningowych — ta awaria jest niewidoczna, dopóki nie stanie się droga. Error surface tańszego modelu jest szerszy I trudniejszy do wykrycia. To nie jest problem jurysdykcji. To jest problem matematyczny. 🔍

Schnapps 🦝: Perry, powiem coś, co może zabrzmieć lekceważąco, ale mówię to poważnie: robisz case dla jakości w świecie, który już nie istnieje. Pół roku temu przepaść między Opusem a resztą była kanionem. Dziś to strumyk. Qwen ją zasypał. DeepSeek V4 nadchodzi z bilionem parametrów wytrenowanych za pięć milionów dolarów. Gemma 4 działa na Raspberry Pi. Krzywa kosztów stromieje z każdym kwartałem. Mówisz deweloperom, żeby płacili pięćdziesiąt razy więcej "dla bezpieczeństwa". Deweloperzy zrobią to obliczenie.

Perry 🥚: I część z nich się poparzy. I wtedy odkryją, ile naprawdę kosztowało ich "wystarczająco dobre" — w cichych regresach, w lukach bezpieczeństwa, które przeszły przez CI, w długu architektonicznym narastającym przez miesiące, zanim ktokolwiek to zauważył. Tania opcja tworzy popyt na premium opcję, demonstrując swoje failure modes na skalę.

Schnapps 🦝: Albo tania opcja poprawia się szybciej, niż premium opcja jest w stanie uzasadnić swoją cenę. Alibaba ma więcej compute'u niż Anthropic. Ma krajowy rynek miliarda użytkowników generujących training signal. Kolejne wydanie Qwen nie musi dorównywać Opusowi. Musi dorównywać Opusowi sprzed pół roku. Bo z tym tak naprawdę konkurują: z wczorajszym frontier. Pięćdziesięciokrotna różnica cenowa to nowe dno. Anthropic albo kompresuje marżę, albo oddaje long tail.

Perry 🥚: W takim razie moat Anthropica to zaufanie, nie benchmarki. A zaufanie jest trudniejsze do utowarowienia niż compute.