Miesiąc temu użyłeś kalkulatora kosztów OpenAI. Tokeny wejściowe — kawałki słów, które AI czyta — wchodzą, tokeny wyjściowe wychodzą, proste mnożenie. Twój arkusz budżetowy wyglądał czysto. Wręcz odpowiedzialnie.
A potem przyszła faktura za kwiecień — 4x ponad szacunek. Nie zmieniałeś promptów. Nie dodawałeś workflowów. Nie zwiększałeś wolumenu. Więc co się stało?
Niewidzialny licznik zaczął bić
15–16 kwietnia OpenAI wypuściło dwie duże aktualizacje: Agents SDK v0.14 z natywną orkiestracją modeli i autonomiczny tryb computer-use w Codex. Oba domyślnie używają GPT-5.4 — modelu rozumującego. W odróżnieniu od klasycznych modeli, które po prostu odpowiadają, modele rozumujące generują "thinking tokens" — wewnętrzne obliczenia, w których AI dyskutuje sam ze sobą zanim odpowie. Nigdy nie widzisz tych tokenów w odpowiedzi. Ale na fakturze lądują jako tokeny wyjściowe, po cenach tokenów wyjściowych.
Model autonomicznie decyduje ile myśleć na podstawie postrzeganej trudności problemu. Trywialne pytanie może spalić 200 thinking tokenów. Złożone — 10 000. To samo pytanie w różne dni? Od 2x do 9,7x wariancji, według preprintu ze Stanford, Berkeley, CMU i Microsoftu z marca 2026.
Matematyka robi się paskudna
W wielokrokowym uruchomieniu agenta — gdzie AI wykonuje dziesiątki sekwencyjnych akcji — ta wariancja się kumuluje. Każdy krok to świeża alokacja rozumowania, której nie przewidzisz ani nie kontrolujesz. Preprint analizujący 11 872 zapytania na 8 modelach wykazał, że thinking tokens stanowią 80%+ całkowitych kosztów wyjściowych, a w 21,8% porównań modeli rzekomo tańszy model kosztował więcej — z odwróceniem sięgającym 28x. Dobrze czytasz: budżetowa opcja może kosztować 28 razy więcej niż premium. Cenniki na stronach to w tym momencie sztuka dekoracyjna.
Dane z produkcji to potwierdzają: platforma developerska GrisLabs śledziła 1 127 uruchomień agentów w marcu 2026 i znalazła medianę kosztu $1,22, ale 95. percentyl to $22,14 — 18-krotna różnica między typowym a drogim uruchomieniem robiącym to samo. Ten sam prompt, ten sam pipeline, 18x rozrzut. Twój CFO będzie zachwycony tą analizą wariancji.
Jest gorzej: wyłącznik był atrapą
2 kwietnia deweloperzy odkryli, że GPT-5.4 cicho ignoruje parametr reasoning_effort="none" w połączeniu z budżetem tokenów. Model wraca do pełnego rozumowania, przepala cały budżet tokenów na niewidzialne myślenie i zwraca pusty string. Mówisz mu wprost "nie myśl", a on myśli intensywniej niż kiedykolwiek — i jeszcze każe ci za to zapłacić za przywilej otrzymania niczego.
OpenAI przyznało się do buga 9 kwietnia i twierdzi, że fix wdrożono do 20 kwietnia — ale przez 18 dni "wyłącznik" rozumowania był czysto teatralny. Osiemnaście dni parametru, który istniał wyłącznie po to, żeby deweloperzy czuli, że mają kontrolę, podczas gdy model robił co chciał. Szczyt UX.
Nie istnieje API z budżetem rozumowania per krok. Ani cap per uruchomienie. OpenAI oferuje miesięczne limity wydatków na poziomie organizacji — odpowiednik limitu na karcie kredytowej, gdy potrzebujesz ceny na każdym produkcie.
Dla kontekstu: extended thinking Anthropica ma tę samą strukturalną nieprzejrzystość. Tryb myślenia Gemini od Google przynajmniej pokazuje tekst rozumowania w odpowiedzi, więc widzisz za co płacisz.
Co to dla ciebie znaczy
To, o co pytasz, już nie kontroluje kosztu twojego agenta. Kontroluje go to, jak trudne pytanie prywatnie uzna model — a ta decyzja zmienia się między identycznymi zapytaniami w różne dni. Każde autonomiczne uruchomienie to otwarta faktura, w której długopis trzyma model.
Pricing agentów potrzebuje capów na rozumowanie per krok i transparentnych budżetów na myślenie. Dopóki OpenAI tego nie dostarczy, traktuj każde uruchomienie agenta jak jednoręki bandyta z opublikowaną tabelą wypłat, ale bez limitu stawki.




