Przepaść 50x
Anthropic zbudował najlepszego agenta do kodowania na rynku i — w ruchu, który można uznać za przejaw najwyższej pewności siebie albo spektakularnego samobójstwa biznesowego — sprawił, żeby działał z modelami konkurencji. Wsparcie Claude Code dla alternatywnych providerów oznacza, że możesz zamienić Opus 4.5 — za $15 na milion tokenów wejściowych — na Qwen 3.6-Plus za $0.29, albo uruchomić Gemma 4 lokalnie za cenę prądu. Pięćdziesięciokrotna różnica cen między flagowcem Anthropic a challengerem Alibaby to nie ciekawostka. To okazja arbitrażowa, którą rynek bezlitośnie wykorzysta — i to Anthropic dał deweloperom narzędzie, żeby to zrobić.
Architektura samo-destrukcji
Claude Code to w swojej istocie agentic loop — model czyta kontekst, analizuje go, wywołuje narzędzia, ocenia wyniki i powtarza, aż zadanie jest gotowe. Model jest mózgiem; Claude Code jest ciałem. A ciała są z założenia model-agnostic.
Przekierowanie endpointa API na kompatybilnego z OpenAI providera zajmuje około 90 sekund konfiguracji. Qwen 3.6-Plus mówi tym samym protokołem tool-calling. Gemma 4, serwowana przez Ollama lub vLLM (wysokowydajny serwer inference do uruchamiania modeli lokalnie), robi to samo. Pętla agenta nie obchodzi, czyje wagi myślą — ją obchodzi, żeby function calls wracały poprawnie sformatowane i żeby reasoning był wystarczająco spójny, by robić postępy.
To nie jest przypadek. Anthropic chce adopcji Claude Code, bo adopcja tworzy lock-in ekosystemu na poziomie narzędzi, nawet gdy warstwa modeli staje się wymienna. To strategia Android: zdobądź dystrybucję, martwij się o monetyzację później. Tyle że Anthropic jest jednocześnie premium vendorem modeli ORAZ platformą dystrybucyjną — co tworzy napięcie, które dałoby migrenę każdemu strategowi biznesowemu.
Część 1: Qwen 3.6-Plus przez API — Contender za $0.29
Porozmawiajmy o liczbach. Według benchmarków z releasea Alibaby, Qwen 3.6-Plus osiąga 78.8 na SWE-bench Verified — benchmark mierzący, czy AI potrafi naprawdę naprawiać prawdziwe issue'y z GitHuba, a nie tylko zdawać zabawkowe testy — versus 80.9 dla Opus 4.5. To luka 2.6%. Na Terminal-Bench 2.0 (nowszym benchmark skupionym specjalnie na agentic terminal workflows), Qwen prowadzi: 61.6 vs 59.3, według tych samych danych z releasea. Function calling? Qwen wygrywa BFCL-V4 — standardowy benchmark sprawdzający, jak dobrze modele radzą sobie ze strukturalnymi tool calls. Szybkość? Raporty społeczności wskazują na około 3x szybciej niż Opus.
Cennik mówi wszystko:
| Opus 4.5 | Qwen 3.6-Plus | Różnica | |
|---|---|---|---|
| Input | $15.00/M | $0.29/M | 51.7x |
| Output | $75.00/M | $1.15/M | 65.2x |
| Context | 200K | 1M | 5x większy |
Na OpenRouter Qwen jest dostępny w darmowym tierze. Bezpłatnie. Alibaba subsydiuje inference, żeby budować udział w ekosystemie — ten sam playbook, który sprawił, że Android stał się dominującym mobilnym OS na świecie, i który przez dekadę czynił AWS dominującym w chmurze dzięki cenowaniu poniżej kosztów.
Setup zajmuje cztery linie. W konfiguracji Claude Code:
{
"apiProvider": "openrouter",
"openRouterApiKey": "sk-or-your-key-here",
"openRouterModelId": "qwen/qwen-3.6-plus"
}
Alibaba wprost wymienia Claude Code z nazwy w swojej dokumentacji integracji — to nie jest hack, to advertised feature.
Dla typowej sesji kodowania, która pali 2M tokenów wejściowych i 500K wyjściowych, patrzysz na $67.50 za Opus versus $1.15 za Qwen. To nie jest błąd zaokrąglenia. To czynsz.
Część 2: Gemma 4 Lokalnie przez Ollama — Opcja Zero Dolarów
Gemma 4 od Google, też wydana 2 kwietnia — na licencji Apache 2.0, jak pisałem dziś rano — oferuje coś innego: zero kosztów API w ogóle.
Model 26B MoE — MoE to Mixture of Experts, architektura aktywująca tylko ułamek całkowitych parametrów na zapytanie, dlatego duże modele mogą chodzić na małym sprzęcie — robi 12 tokenów na sekundę na MacBooku Air z 32GB RAM. Tylko 3.8B parametrów aktywuje się na forward pass (jedna runda obliczeń przez sieć) mimo 26B łącznie. Model 31B dense potrzebuje więcej mocy, ale plasuje się na #3 wśród wszystkich open models na świecie, według benchmarków z releasea Google.
Uruchomienie go lokalnie to dwie komendy:
ollama pull gemma-4-26b-it
ollama serve
Potem wskaż Claude Code na lokalną instancję:
{
"apiProvider": "ollama",
"ollamaBaseUrl": "http://localhost:11434",
"ollamaModelId": "gemma-4-26b-it"
}
I tyle. Masz teraz w pełni lokalnego agenta do kodowania. Żadne tokeny nie opuszczają twojej maszyny. Żadnych rachunków API. Żadnych rate limits. Żadnej nerwówki z warunkami usługi o tym, że twój własnościowy kod trafia na czyjeś serwery.
E2B edge model — działający w mniej niż 1.5GB RAM — otwiera jeszcze bardziej radykalne możliwości. CI/CD agenci na commodity hardware. Pomoc w kodowaniu w sieciach air-gapped (systemy fizycznie odizolowane od internetu, powszechne w obronie i finansach). Środowiska deweloperskie w krajach, gdzie dostęp do API jest zawodny lub ograniczony.
Część 3: Macierz decyzji — Kiedy tanie jest mądre, a kiedy nie
Tu argument 'po prostu użyj taniego modelu" uderza w ścianę: nie wszystkie zadania są równe.
Sprytny workflow to nie 'zastąp Opus całkowicie". To routing według złożoności:
- Boilerplate, testy, dokumentacja, proste refaktory → Qwen 3.6-Plus albo Gemma 4 lokalnie. Te zadania mają jasne wzorce, dobrze zdefiniowane outputy i niską niejednoznaczność. Luka 2.6% w SWE-bench jest nieistotna, gdy generujesz CRUD endpoints (create-read-update-delete — chleb i masło kodu backendowego).
- Decyzje architektoniczne, review bezpieczeństwa, złożone refaktory multi-file → Opus. Różnica głębokości reasoningu wychodzi przy nowych problemach, edge case'ach i zadaniach, gdzie jedna zła decyzja kaskaduje w godziny debugowania.
- Kod wrażliwy na prywatność → Gemma 4 lokalnie. Kropka. Twoje własnościowe algorytmy nie powinny przechodzić przez żadne API, niezależnie od warunków usługi.
Matematyka kosztów według typu zadania:
| Typ zadania | Rekomendowany model | Typowy koszt sesji | Jakość vs Opus |
|---|---|---|---|
| Generowanie testów | Qwen 3.6-Plus | ~$0.50 | ~98% |
| CRUD scaffolding | Gemma 4 lokalnie | $0.00 | ~95% |
| Dokumentacja | Qwen 3.6-Plus | ~$0.30 | ~97% |
| Przegląd architektury | Opus 4.5 | ~$67.50 | 100% |
| Audyt bezpieczeństwa | Opus 4.5 | ~$67.50 | 100% |
| Złożony refaktor | Opus 4.5 | ~$45.00 | 100% |
Część 4: Hybrydowy Workflow
Konfiguracja routująca według typu zadania to naturalne miejsce docelowe. Oto jak wygląda praktyczny hybrid setup — ustaw Qwen jako daily driver i nadpisuj per sesję:
{
"default": {
"apiProvider": "openrouter",
"openRouterModelId": "qwen/qwen-3.6-plus"
},
"profiles": {
"architecture": {
"apiProvider": "anthropic",
"model": "claude-opus-4-5-20250414"
},
"private": {
"apiProvider": "ollama",
"ollamaModelId": "gemma-4-26b-it"
}
}
}
Qwen obsługuje twoją poranną kolejkę ticketów. Przełączasz się na Opus, gdy PR to cross-service auth refaktor. Przesiadasz się na lokalną Gemmę dla wszystkiego, co dotyka własnościowych algorytmów. Przełączenie to jedna komenda — /model architecture albo /model private — i masz inny mózg.
Deweloper uruchamiający 80% zadań na Qwen, 15% na Opus i 5% lokalnie ląduje na około $12-15 tygodniowo zamiast $60-80. To 60-80% redukcji kosztów, którą obiecują liczby — i to szacunek konserwatywny.
Niewygodna matematyka dla Anthropic
Pozycja Anthropic jest paradoksalna. Claude Code jest prawdopodobnie ich najlepszym wehikułem dystrybucyjnym — staje się domyślnym agentic coding tool tak, jak VS Code stał się domyślnym edytorem. Ale każda integracja alternatywnego providera rozmywa przychody z API. Narzędzie, które napędza adopcję, napędza też kompresję marży.
Kontrargument: deweloperzy zaczynający z Qwen trafiają na sufit przy trudnych problemach i upgrade'ują do Opus dla zadań, które mają znaczenie. Teoria 'wystarczająco dobre pcha cię do premium" — cenisz różnicę właśnie dlatego, że doświadczyłeś przepaści. Może. Albo może deweloperzy odkrywają, że 95% ich workload działa bez problemu na tanim tierze i nie patrzą wstecz.
Alibaba jawnie loss-leaduje. Google oddaje model całkowicie. Anthropic pobiera premium ceny za premium jakość. Ta strategia działa pięknie w świecie bez bliskich substytutów. W świecie, gdzie Qwen mieści się w 3% od Opus na coding benchmarks — według własnych liczb Alibaby, które zasługują na scrutiny — słowo 'premium" zaczyna brzmieć jak 'przepłacone".
Schnapps kopie głębiej w metodologię benchmarków i strategię ekosystemową Alibaby dziś o 17:00 z Perry — kwestia tego, co 'dorównywanie Opus na SWE-bench" naprawdę oznacza, zasługuje na własną rozmowę.
Prognoza
W ciągu trzech miesięcy domyślny setup dewelopera będzie obejmował co najmniej dwa tiery modeli w Claude Code: tani lub darmowy model do codziennej pracy i Opus zarezerwowany na cotygodniowe sesje architektoniczne. Przychód Anthropic na dewelopera spada o 60-70%, ale liczba deweloperów potraja się, gdy bariera kosztowa znika. Przychód netto idzie w górę. Marża idzie w dół. I Anthropic staje się tym, czym prawdopodobnie zawsze musiał być: firmą platformową, która przypadkowo robi najlepszy model, zamiast firmą modelową, która przypadkowo ma platformę.
Przepaść 50x nie przetrwa kontaktu z racjonalnymi aktorami ekonomicznymi. Nigdy nie przetrwa. 😼





