$700 miliardow wydano na zle maszyny: inference compute to prawdziwa wojna o AI

Śledzisz nagłówki o AI i widzisz znajomy wzorzec: większe klastry, więcej GPU, kolejny budżet na sto miliardów dolarów. Trening — proces uczenia modelu wszystkiego, co wie — dominuje w tym spektaklu. Panująca narracja brzmi: kto wytrenuje największy model, ten wygrywa.

Ale ekonomia zdążyła się przesunąć spod tego założenia.

Kwiecień sprawił, że strukturalna zmiana stała się nie do przeoczenia. 2 kwietnia OpenAI przeszło z Codexem na rozliczanie per token (tokeny — fragmenty słów, które czyta AI, z grubsza ¾ angielskiego słowa). 8 kwietnia Anthropic uruchomił Managed Agents za $0,08 za godzinę sesji. Obie firmy poszły śladem Google Vertex AI, które w lutym przeszło na rozliczanie mocy obliczeniowej per sekunda — sygnał, który wtedy wyglądał na kosmetyczny, a teraz czyta się jako systemowy. Trzy firmy, trzy formaty, jeden kierunek: inference compute — moc obliczeniowa zużywana za każdym razem, gdy AI myśli, pisze lub działa — stał się dominującym kosztem branży.

Wytrenowanie modelu frontier kosztuje miliardy, ale zdarza się raz. Inference dzieje się co sekundę. Na dzień 27 lutego sam ChatGPT przetwarzał ponad 2 miliardy zapytań dziennie od 900 milionów tygodniowych użytkowników — liczba, która siedem tygodni później jest prawie na pewno wyższa. Agenty mnożą obciążenie: odpowiedź czatowa kończy się w milisekundach, sesja agenta ciągnie się godzinami. Raport Deloitte TMT Predictions 2026 (opublikowany w grudniu 2025) prognozował, że inference pochłonie dwie trzecie całej mocy obliczeniowej AI w tym roku — w porównaniu z jedną trzecią w 2023. Kwietniowe sygnały cenowe potwierdzają tę trajektorię.

Fosa konkurencyjna teraz leży w stosie obsługującym inference, nie w klastrze treningowym. 4 lutego Sundar Pichai ujawnił podczas ogłoszenia wyników Alphabetu za Q4, że Google obniżył koszty obsługi Gemini o 78% dzięki optymalizacji modeli i dedykowanym TPU (specjalizowane chipy Google do inference). Ta różnica w wydajności ustala ceny, których konkurencja nie jest w stanie wyrównać: Gemini 2.5 Flash za $0,15 za milion tokenów wejściowych versus Sonnet 4.6 od Anthropica za $3,00. 20-krotna różnica napędzana krzemem, nie jakością modelu. Redukcja Google nie wynikała z większego klastra treningowego. Wynikała z dedykowanego hardware'u do inference, destylacji i optymalizacji stosu obsługi — tej nieseksownej hydrauliki, która decyduje, ile faktycznie kosztuje wywołanie API.

Ale tańszy inference niesie ukryty koszt. Jak ostrzegał Gartner w analizie z 14 marca dotyczącej struktur kosztów AI: 'Nie myl deflacji cen zwykłych tokenów z demokratyzacją frontier reasoning." Tanie tokeny pochodzą z destylowanych modeli — okrojonych wersji, które wymieniają inteligencję na szybkość. Flash to nie Opus. Optymalizacja inference naturalnie pcha w kierunku 'wystarczająco dobrego" AI, nie najmądrzejszego.

Rynek już odzwierciedla ten podział. Dane prezentowane na HumanX 2026 (25–27 marca) pokazały, że budżety enterprise na AI wzrosły z $1,2M do $7M między 2024 a 2026 — pomimo 280-krotnego spadku cen tokenów — bo zespoły wciąż wybierają bardziej zaawansowane modele do zadań o wysokiej wartości. Tani inference obsługuje wolumen. Drogi inference obsługuje wartość. Oba rynki rosną, ale nagradzają zupełnie różne inwestycje infrastrukturalne.

I tu wyostrza się problem błędnej alokacji kapitału. Dostawcy chmury zobowiązali się do wydania około $660–690 miliardów na infrastrukturę AI w 2026, głównie na moce treningowe — hardware do wyprodukowania następnej generacji modeli. Ale trening za $5 miliardów daje model, który służy przez miesiące lub lata. Obciążenie inference, które on generuje, działa co sekundę i narasta, gdy agenty rozciągają sesje z milisekund do godzin. Firmy, które wcześnie zainwestowały w krzem do inference, teraz dyktują ceny. Firmy, które postawiły wszystko na mega-klastry treningowe, mają imponujące modele i drogie unit economics.

Dla zespołów wybierających platformy dziś, to zmienia optykę decyzji. Różnica jakości między czołowymi modelami wciąż się zawęża — Sonnet, GPT-4.1 i Gemini Pro plasują się w granicach kilku punktów od siebie na standardowych benchmarkach. Różnica kosztów inference wciąż rośnie. Twój roczny rachunek zależy bardziej od krzemu obsługującego model niż od samego modelu.

Wyścig zbrojeń w AI się rozwidlił. Prawie $700 miliardów płynie na infrastrukturę treningową, która wygrywa wojnę już kończącą się. Wydajność inference wygrywa następną. Większość tego kapitału wylądowała po złej stronie podziału.

$700 miliardow wydano na zle maszyny: inference compute to prawdziwa wojna o AI

Keep reading

Solo founder + agent AI = zespół 10 osób?

Zbuduj 50-liniowa petle agentyczna, ktora napedza kazda platforme AI agentow

Trzy platformy agentowe wystartowaly w kwietniu. Zadna nie ma przycisku Deploy.

Twoj agent AI crashuje na kroku czwartym. I co teraz?