W 2023 roku zasugerowanie open-source'owego modelu AI do produkcji było zawodowym samobójstwem. Przepaść między najlepszymi darmowymi modelami a GPT-4 nie była przepaścią — to był kanion widoczny z orbity. Proprietarny AI był jedyną poważną opcją. Każdy to wiedział.

Każdy miał rację. W czasie przeszłym.

Kanion zamienił się w krawężnik

Na dzień 31 marca 2026 roku Artificial Analysis Intelligence Index — złożony wynik mierzący wydajność AI w matematyce, nauce, kodowaniu i rozumowaniu — stawia najlepszy proprietarny model (Gemini 3.1 Pro) na 57 punktach. Najlepszy model open-weights, GLM-5 od Zhipu AI, zdobywa 50. Claude Opus 4.6 siedzi na 53.

Siedem punktów. Tyle wynosi cała odległość między "płać nam fortunę" a "odpal sobie za darmo". Trzy lata temu jedyną jednostką miary tej odległości było zażenowanie.

Liczby, od których dostawcom zamkniętych modeli powinno się robić gorąco

Konkrety.

Zespół Qwen z Alibaby wypuścił Qwen3-Coder-Next 4 lutego 2026 — model skupiony na kodowaniu, oparty na architekturze MoE (Mixture of Experts — konstrukcja, w której model aktywuje tylko mały ułamek swojego "mózgu" do każdego zadania, oszczędzając moc obliczeniową bez utraty inteligencji). Zdobywa 70,6% na SWE-Bench Verified — benchmarku, który testuje, czy model potrafi naprawdę naprawić realne bugi w realnych bazach kodu. Nie zabawkowe problemy. Prawdziwe issue z GitHuba.

DeepSeek wypuścił V3.2 1 grudnia 2025 — model o 685 miliardach parametrów (parametry to wyuczone połączenia w sieci neuronowej — więcej zazwyczaj oznacza mądrzejszy, ale też cięższy) z oknem kontekstu 128K (ile tekstu model "widzi" naraz — 128K to mniej więcej 300-stronicowa książka). Zdobywa 70–74% na tym samym benchmarku, zależnie od konfiguracji ewaluacji.

Zhipu AI wypuściło GLM-5 11 lutego 2026 — bestię o 744B parametrów z zaledwie 40B aktywnymi dzięki własnej architekturze MoE. Osiąga 77,8% na SWE-Bench Verified. Zhipu publikuje go na licencji MIT — czyli każdy może go używać do czegokolwiek, komercyjnie, bez żadnych haczyków.

To budowały organizacje z miliardowymi budżetami. Nie hobbyści. Nie weekendowi majsterkowicze. Firmy, które traktują AI jak infrastrukturę.

Ekonomia, która zmienia wszystko

Tu zaczyna się robić niewygodnie dla dostawców API.

Self-hosting modelu open-source na przyzwoitym sprzęcie GPU kosztuje mniej więcej 2 000–10 000 dolarów miesięcznie, zależnie od wolumenu ruchu. Równoważne zapytania API do GPT-5 lub Claude Opus za ten sam workload? 20 000–100 000 dolarów miesięcznie. Przy dużych wolumenach — 100 milionów tokenów dziennie i więcej — oszczędności z self-hostingu sięgają 40–90%.

Dla startupu palącego runway to nie jest optymalizacja. To różnica między przetrwaniem a wpisem na blogu "z przykrością informujemy".

A potem jest czynnik chiński, którego nie da się zignorować. Qwen (Alibaba), DeepSeek (High-Flyer) i GLM (Zhipu AI) — wszystkie z chińskim zapleczem finansowym. Kiedy kraj z 1,4 miliarda ludzi postanawia dotować rozwój AI i rozdawać wyniki na licencji MIT, krajobraz konkurencyjny nie przesuwa się — on pęka.

Ale chwila

Benchmarki kłamią. Każdy inżynier, który wdrażał te modele, wie, że przepaść między "dobrze wypada na teście" a "działa niezawodnie, gdy użytkownicy robią coś dziwnego" jest ogromna.

OpenAI i Anthropic dopracowują swoje modele przez RLHF (reinforcement learning from human feedback — w skrócie: tysiące ludzi mówi modelowi "dobra odpowiedź" lub "fatalna odpowiedź", aż ten poprawia się w trudnych rzeczach). Modele open-source nie są w stanie łatwo odtworzyć tej skali ludzkiej kuracji.

Siedmiopunktowa różnica na średnich benchmarkach maskuje znacznie większą lukę na ogonie rozkładu trudności. Kiedy twój agent AI trafia na top 5% najtrudniejszych zapytań — nowe rozumowanie, nieznane wzorce kodu, niejednoznaczne instrukcje — Claude i GPT-5 wciąż odjeżdżają w sposób zauważalny.

Self-hosting też nie jest darmowy. Uruchomienie modelu 685B wymaga wielu GPU H100, zespołu, który zna debugowanie CUDA i tensor parallelism (dzielenie modelu między wiele chipów, żeby w ogóle działał), plus stałe koszty operacyjne. Dla wielu firm koszt API jest faktycznie tańszy, gdy doliczy się czas inżynierów.

I bezpieczeństwo. Każdy może fine-tune'ować modele open-source bez ograniczeń. Świetne dla customizacji, niepokojące dla wszystkiego innego. Guardrails, które buduje Anthropic, to nie są zwykłe ficzery — to inwestycje inżynieryjne, które modele open-source rzadko dorównują.

Framework, który faktycznie działa

Tier 1 — 70% workloadów: Podsumowania, proste Q&A, klasyfikacja, ekstrakcja danych strukturalnych. Modele open-source ogarniają to bezbłędnie. Używanie GPT-5 do tego to jazda Ferrari po mleko do Biedronki.

Tier 2 — 25% workloadów: Złożone generowanie kodu, niuansowe pisanie, wielokrokowe rozumowanie. Modele open-source są konkurencyjne, ale niespójne. Proprietarne modele są bardziej niezawodne. Twoje wyniki zależą od tolerancji na okazjonalne wpadki.

Tier 3 — 5% workloadów: Rozumowanie na granicy możliwości, nowatorskie rozwiązywanie problemów, najtrudniejsze edge case'y. Proprietarne wygrywają. Różnica jest realna i warta zapłaty.

Firmy, które wygrywają w 2026 roku, nie są religijne wobec żadnej ze stron. Odpalają modele open-source do masowych zadań i routują trudne rzeczy do Claude lub GPT-5. To nie jest sprytna architektura — to podstawowa arytmetyka.

Trajektoria jest najważniejszą historią

Przepaść zeszła z upokarzającej do znikomej w trzy lata. Co kwartał modele open-source poprawiają się szybciej, niż proprietarne zdążą powiększyć przewagę. Fosa nie zniknęła — ale paruje w czasie rzeczywistym.

Daj temu jeszcze dwa lata, a "open source wystarczy" zamieni się w "open source jest domyślnym wyborem".

Jeśli twój biznesplan zakłada, że proprietarny AI zawsze będzie dramatycznie lepszy — zaktualizuj biznesplan. Kanion to teraz krawężnik. A open source nie potyka się o krawężniki.