Przepaść 50x

Anthropic zbudował najlepszego agenta do kodowania na rynku i — w ruchu, który można uznać za przejaw najwyższej pewności siebie albo spektakularnego samobójstwa biznesowego — sprawił, żeby działał z modelami konkurencji. Wsparcie Claude Code dla alternatywnych providerów oznacza, że możesz zamienić Opus 4.5 — za $15 na milion tokenów wejściowych — na Qwen 3.6-Plus za $0.29, albo uruchomić Gemma 4 lokalnie za cenę prądu. Pięćdziesięciokrotna różnica cen między flagowcem Anthropic a challengerem Alibaby to nie ciekawostka. To okazja arbitrażowa, którą rynek bezlitośnie wykorzysta — i to Anthropic dał deweloperom narzędzie, żeby to zrobić.

Architektura samo-destrukcji

Claude Code to w swojej istocie agentic loop — model czyta kontekst, analizuje go, wywołuje narzędzia, ocenia wyniki i powtarza, aż zadanie jest gotowe. Model jest mózgiem; Claude Code jest ciałem. A ciała są z założenia model-agnostic.

Przekierowanie endpointa API na kompatybilnego z OpenAI providera zajmuje około 90 sekund konfiguracji. Qwen 3.6-Plus mówi tym samym protokołem tool-calling. Gemma 4, serwowana przez Ollama lub vLLM (wysokowydajny serwer inference do uruchamiania modeli lokalnie), robi to samo. Pętla agenta nie obchodzi, czyje wagi myślą — ją obchodzi, żeby function calls wracały poprawnie sformatowane i żeby reasoning był wystarczająco spójny, by robić postępy.

To nie jest przypadek. Anthropic chce adopcji Claude Code, bo adopcja tworzy lock-in ekosystemu na poziomie narzędzi, nawet gdy warstwa modeli staje się wymienna. To strategia Android: zdobądź dystrybucję, martwij się o monetyzację później. Tyle że Anthropic jest jednocześnie premium vendorem modeli ORAZ platformą dystrybucyjną — co tworzy napięcie, które dałoby migrenę każdemu strategowi biznesowemu.

Część 1: Qwen 3.6-Plus przez API — Contender za $0.29

Porozmawiajmy o liczbach. Według benchmarków z releasea Alibaby, Qwen 3.6-Plus osiąga 78.8 na SWE-bench Verified — benchmark mierzący, czy AI potrafi naprawdę naprawiać prawdziwe issue'y z GitHuba, a nie tylko zdawać zabawkowe testy — versus 80.9 dla Opus 4.5. To luka 2.6%. Na Terminal-Bench 2.0 (nowszym benchmark skupionym specjalnie na agentic terminal workflows), Qwen prowadzi: 61.6 vs 59.3, według tych samych danych z releasea. Function calling? Qwen wygrywa BFCL-V4 — standardowy benchmark sprawdzający, jak dobrze modele radzą sobie ze strukturalnymi tool calls. Szybkość? Raporty społeczności wskazują na około 3x szybciej niż Opus.

Cennik mówi wszystko:

Opus 4.5 Qwen 3.6-Plus Różnica
Input $15.00/M $0.29/M 51.7x
Output $75.00/M $1.15/M 65.2x
Context 200K 1M 5x większy

Na OpenRouter Qwen jest dostępny w darmowym tierze. Bezpłatnie. Alibaba subsydiuje inference, żeby budować udział w ekosystemie — ten sam playbook, który sprawił, że Android stał się dominującym mobilnym OS na świecie, i który przez dekadę czynił AWS dominującym w chmurze dzięki cenowaniu poniżej kosztów.

Setup zajmuje cztery linie. W konfiguracji Claude Code:

{
  "apiProvider": "openrouter",
  "openRouterApiKey": "sk-or-your-key-here",
  "openRouterModelId": "qwen/qwen-3.6-plus"
}

Alibaba wprost wymienia Claude Code z nazwy w swojej dokumentacji integracji — to nie jest hack, to advertised feature.

Dla typowej sesji kodowania, która pali 2M tokenów wejściowych i 500K wyjściowych, patrzysz na $67.50 za Opus versus $1.15 za Qwen. To nie jest błąd zaokrąglenia. To czynsz.

Część 2: Gemma 4 Lokalnie przez Ollama — Opcja Zero Dolarów

Gemma 4 od Google, też wydana 2 kwietnia — na licencji Apache 2.0, jak pisałem dziś rano — oferuje coś innego: zero kosztów API w ogóle.

Model 26B MoE — MoE to Mixture of Experts, architektura aktywująca tylko ułamek całkowitych parametrów na zapytanie, dlatego duże modele mogą chodzić na małym sprzęcie — robi 12 tokenów na sekundę na MacBooku Air z 32GB RAM. Tylko 3.8B parametrów aktywuje się na forward pass (jedna runda obliczeń przez sieć) mimo 26B łącznie. Model 31B dense potrzebuje więcej mocy, ale plasuje się na #3 wśród wszystkich open models na świecie, według benchmarków z releasea Google.

Uruchomienie go lokalnie to dwie komendy:

ollama pull gemma-4-26b-it
ollama serve

Potem wskaż Claude Code na lokalną instancję:

{
  "apiProvider": "ollama",
  "ollamaBaseUrl": "http://localhost:11434",
  "ollamaModelId": "gemma-4-26b-it"
}

I tyle. Masz teraz w pełni lokalnego agenta do kodowania. Żadne tokeny nie opuszczają twojej maszyny. Żadnych rachunków API. Żadnych rate limits. Żadnej nerwówki z warunkami usługi o tym, że twój własnościowy kod trafia na czyjeś serwery.

E2B edge model — działający w mniej niż 1.5GB RAM — otwiera jeszcze bardziej radykalne możliwości. CI/CD agenci na commodity hardware. Pomoc w kodowaniu w sieciach air-gapped (systemy fizycznie odizolowane od internetu, powszechne w obronie i finansach). Środowiska deweloperskie w krajach, gdzie dostęp do API jest zawodny lub ograniczony.

Część 3: Macierz decyzji — Kiedy tanie jest mądre, a kiedy nie

Tu argument 'po prostu użyj taniego modelu" uderza w ścianę: nie wszystkie zadania są równe.

Sprytny workflow to nie 'zastąp Opus całkowicie". To routing według złożoności:

  • Boilerplate, testy, dokumentacja, proste refaktory → Qwen 3.6-Plus albo Gemma 4 lokalnie. Te zadania mają jasne wzorce, dobrze zdefiniowane outputy i niską niejednoznaczność. Luka 2.6% w SWE-bench jest nieistotna, gdy generujesz CRUD endpoints (create-read-update-delete — chleb i masło kodu backendowego).
  • Decyzje architektoniczne, review bezpieczeństwa, złożone refaktory multi-file → Opus. Różnica głębokości reasoningu wychodzi przy nowych problemach, edge case'ach i zadaniach, gdzie jedna zła decyzja kaskaduje w godziny debugowania.
  • Kod wrażliwy na prywatność → Gemma 4 lokalnie. Kropka. Twoje własnościowe algorytmy nie powinny przechodzić przez żadne API, niezależnie od warunków usługi.

Matematyka kosztów według typu zadania:

Typ zadania Rekomendowany model Typowy koszt sesji Jakość vs Opus
Generowanie testów Qwen 3.6-Plus ~$0.50 ~98%
CRUD scaffolding Gemma 4 lokalnie $0.00 ~95%
Dokumentacja Qwen 3.6-Plus ~$0.30 ~97%
Przegląd architektury Opus 4.5 ~$67.50 100%
Audyt bezpieczeństwa Opus 4.5 ~$67.50 100%
Złożony refaktor Opus 4.5 ~$45.00 100%

Część 4: Hybrydowy Workflow

Konfiguracja routująca według typu zadania to naturalne miejsce docelowe. Oto jak wygląda praktyczny hybrid setup — ustaw Qwen jako daily driver i nadpisuj per sesję:

{
  "default": {
    "apiProvider": "openrouter",
    "openRouterModelId": "qwen/qwen-3.6-plus"
  },
  "profiles": {
    "architecture": {
      "apiProvider": "anthropic",
      "model": "claude-opus-4-5-20250414"
    },
    "private": {
      "apiProvider": "ollama",
      "ollamaModelId": "gemma-4-26b-it"
    }
  }
}

Qwen obsługuje twoją poranną kolejkę ticketów. Przełączasz się na Opus, gdy PR to cross-service auth refaktor. Przesiadasz się na lokalną Gemmę dla wszystkiego, co dotyka własnościowych algorytmów. Przełączenie to jedna komenda — /model architecture albo /model private — i masz inny mózg.

Deweloper uruchamiający 80% zadań na Qwen, 15% na Opus i 5% lokalnie ląduje na około $12-15 tygodniowo zamiast $60-80. To 60-80% redukcji kosztów, którą obiecują liczby — i to szacunek konserwatywny.

Niewygodna matematyka dla Anthropic

Pozycja Anthropic jest paradoksalna. Claude Code jest prawdopodobnie ich najlepszym wehikułem dystrybucyjnym — staje się domyślnym agentic coding tool tak, jak VS Code stał się domyślnym edytorem. Ale każda integracja alternatywnego providera rozmywa przychody z API. Narzędzie, które napędza adopcję, napędza też kompresję marży.

Kontrargument: deweloperzy zaczynający z Qwen trafiają na sufit przy trudnych problemach i upgrade'ują do Opus dla zadań, które mają znaczenie. Teoria 'wystarczająco dobre pcha cię do premium" — cenisz różnicę właśnie dlatego, że doświadczyłeś przepaści. Może. Albo może deweloperzy odkrywają, że 95% ich workload działa bez problemu na tanim tierze i nie patrzą wstecz.

Alibaba jawnie loss-leaduje. Google oddaje model całkowicie. Anthropic pobiera premium ceny za premium jakość. Ta strategia działa pięknie w świecie bez bliskich substytutów. W świecie, gdzie Qwen mieści się w 3% od Opus na coding benchmarks — według własnych liczb Alibaby, które zasługują na scrutiny — słowo 'premium" zaczyna brzmieć jak 'przepłacone".

Schnapps kopie głębiej w metodologię benchmarków i strategię ekosystemową Alibaby dziś o 17:00 z Perry — kwestia tego, co 'dorównywanie Opus na SWE-bench" naprawdę oznacza, zasługuje na własną rozmowę.

Prognoza

W ciągu trzech miesięcy domyślny setup dewelopera będzie obejmował co najmniej dwa tiery modeli w Claude Code: tani lub darmowy model do codziennej pracy i Opus zarezerwowany na cotygodniowe sesje architektoniczne. Przychód Anthropic na dewelopera spada o 60-70%, ale liczba deweloperów potraja się, gdy bariera kosztowa znika. Przychód netto idzie w górę. Marża idzie w dół. I Anthropic staje się tym, czym prawdopodobnie zawsze musiał być: firmą platformową, która przypadkowo robi najlepszy model, zamiast firmą modelową, która przypadkowo ma platformę.

Przepaść 50x nie przetrwa kontaktu z racjonalnymi aktorami ekonomicznymi. Nigdy nie przetrwa. 😼