Anthropic odpalił Managed Agents, OpenAI nalicza za każdy token z platformowymi opłatami na wierzchu, a Google kasuje za vCPU-godzinę. Pisaliśmy o tym wydarzeniu i całym zoo rozliczeń wczoraj. Ale wszyscy — łącznie ze mną — za długo gapili się na opłaty za orkiestrację. Prawdziwa liczba siedzi jedną warstwę głębiej.

Koszty orkiestracji — $0.08/sesja-godzinę u Anthropic, ~$0.09/vCPU-godzinę u Google — to szum. Kilka centów za godzinę nianczenia. Liczba, od której twój CFO powinien naprawdę nie spać w nocy, to cena tokena, bo właśnie tam kryje się 10-krotna przepaść.

Matematyka, którą nikt nie zaczął

Oto ile kosztuje przetworzenie miliona tokenów wejściowych na poszczególnych modelach:

  • Gemini 2.5 Flash: $0.30
  • GPT-5: $1.25
  • Claude Sonnet 4.5: $3.00

To nie jest błąd zaokrąglenia. Najtańszy model Google kosztuje jedną dziesiątą tego, co koń roboczy Anthropic na surowej inferencji. Agent przeżuwający milion tokenów — mniej więcej 750 000 słów — to $0.30 na Flashu kontra $3.00 na Claude. Pomnóż przez tysiące dziennych sesji, a opłaty za orkiestrację stają się przypisem w znacznie brzydszym arkuszu.

To jest właściwe pole bitwy. Nie kto ile bierze za piaskownicę. Kto ile bierze za myślenie.

Podręcznik Androida, wydanie drugie

Analityk enterprise Kai Waehner napisał o tym 6 kwietnia: Google ma już 11 milionów organizacji podpiętych do Chmury, które co miesiąc machają kartami. Nie muszą wygrywać na marżach z orkiestracji agentów. Potrzebują, żeby agenty napędzały więcej zużycia compute na infrastrukturze, za którą klienci już płacą.

To ekonomia Androida zastosowana do AI. Oddaj runtime niemal po kosztach, spraw żeby cena była nie do odrzucenia, i monetyzuj ekosystem, który klienci budują wokół tego. Darmowy tier Vertex AI Agent Engine pokrywa ~50 godzin obliczeń miesięcznie — akurat tyle, żeby twoje pipeline'y uzależniły się od zarządzania sesjami Google ($0.25 za 1000 eventów), banków pamięci Google, RAG Engine Google.

Waehner znowu: "Wybrać Gemini to wybrać Google Cloud jako warstwę inferencji, Google Workspace jako powierzchnię produktywności i Vertex AI jako platformę deweloperską."

To nie jest decyzja cenowa. To ceremonia adopcji.

Część, w której "tanio" robi się drogie

10-krotny rabat tokenowy jest przyszpilony do całego stacka Google. Twoje agenty zostają podpięte do zarządzania sesjami Vertex, wyszukiwania dokumentów Google, warstwy orkiestracji Google. Migracja do Anthropic albo OpenAI później oznacza budowanie od zera — pipeline'y danych, magazyny pamięci, logika retrieval, wszystko.

Anthropic gra odwrotną kartą. Claude jest dostępny przez własne API, AWS Bedrock i przez Google'owy Vertex AI. Wyższy koszt za token, ale kupujesz sobie drzwi ewakuacyjne. OpenAI siedzi gdzieś pośrodku, hedgując się Azure'em, jednocześnie budując własną grawitację platformową.

Najtańsze tokeny przychodzą z najlepiej klejącą się infrastrukturą. Zawsze tak było, zawsze tak będzie.

Co to dla ciebie znaczy

Jeśli w tym miesiącu wybierasz platformę agentową, przestań porównywać opłaty za orkiestrację. Różnica w kosztach tokenów między dostawcami jest 5-10x większa niż różnica w kosztach runtime. Przelicz całkowity koszt inferencji przy planowanym wolumenie, a potem zapytaj siebie, ile zapłaciłbyś za zmianę dostawcy za dwa lata.

Wojna agentów AI przestała być o tym, kto buduje najmądrzejszy model. Chodzi o to, kto już trzyma twój kontrakt chmurowy — i kto potrafi sprawić, żeby "za darmo" wyglądało jak okazja, dopóki koszty przejścia nie zapukają do drzwi. Google trzyma więcej takich kontraktów niż ktokolwiek inny, a właśnie wycenili swój agent runtime jak ktoś, kto doskonale o tym wie.