Twoje demo agenta AI wypadło świetnie. Odpowiadał na pytania, wywoływał narzędzia — małe programy, które AI sam uruchamia, żeby pobrać dane albo wykonać akcje — i ogarniał edge case'y. Rachunek za API wyniósł $47. Twój szef się nakręcił. PM zaczął pisać roadmapę. CEO wspomniał o tym na board meetingu.

Teraz wdróż tego samego agenta na produkcję dla 10 000 użytkowników i patrz, jak $47 zamienia się w kwotę, po której Twój CFO sięga po whisky. 💰

Budżet, którego nikt nie pokazuje na demo day

Q1 2026 przyniósł falę premier agentów — Anthropic wypuścił integracje Claude agent dla enterprise, OpenAI wdrożył Operator dla płatnych zespołów, Google wepchnął agentów Gemini do Workspace. Każdy vendor sprzedawał tę samą bajkę: podepnij API, patrz jak działa. Nikt nie zaczynał od faktury.

Rozłóżmy na czynniki, gdzie tak naprawdę idą pieniądze, kiedy przenosisz agenta AI — autonomiczny program napędzany LLM-em (large language model, mózg stojący za Claude i ChatGPT) — ze zgrabnego demo na realny produkt.

Według ankiety Mavvrik i Benchmarkit z Q3 2025, 85% organizacji źle szacuje koszty AI o ponad 10%. Prawie jedna czwarta pudłuje o ponad 50%. To nie błąd zaokrąglenia — to różnica między działającym produktem a pożarem w budżecie.

Oto breakdown, który widzę za każdym razem, kiedy grzebię w produkcyjnych wdrożeniach: 🔍

Koszty API do LLM-ów (40–60% całkowitych wydatków). API — rura, przez którą Twoja apka wysyła prompty do Claude albo GPT i dostaje odpowiedzi — rozlicza się per token (kawałek słowa, który AI czyta, mniej więcej ¾ angielskiego wyrazu). Jeden call do Claude Opus 4.6 z pełnym context window — ile tekstu AI "widzi" naraz — kosztuje $5 za milion tokenów wejściowych według cennika Anthropic. Pomnóż to przez tysiące użytkowników odpalających wieloetapowe workflow z retry'ami i patrzysz na $10 000–50 000/miesiąc dla apki ze średnim ruchem. Zanim ktokolwiek zacznie optymalizować prompty.

Przygotowanie danych (40–60% kosztów początkowych). Twój agent potrzebuje wiedzy. Ta wiedza siedzi w dokumentach, bazach danych i API, które trzeba wyczyścić, pociąć na kawałki, zembed'ować — zamienić tekst w liczby, które system wyszukiwania potrafi dopasować — i zaindeksować. To nie jest jednorazowa robota. Dane się zmieniają, schematy ewoluują, a Twój pipeline RAG (retrieval-augmented generation — system, który podrzuca AI odpowiednie dokumenty, zanim odpowie) wymaga ciągłej opieki. Licz $25 000–100 000 dla każdego nietrywialnego systemu.

Integracje (20–35% do tego). Twój agent gada z CRM-em, bazą danych, systemem ticketów, warstwą auth. Każda integracja to powierzchnia na bugi, zależność, która może paść o 3 w nocy, i granica bezpieczeństwa, którą trzeba audytować.

Niespodzianka governance (20–30% uderzenia w budżet). Najbardziej podstępna pozycja. Twój agent idzie na produkcję, a wtedy legal pyta o prywatność danych. Security pyta o prompt injection — kiedy ktoś oszukuje AI, żeby zignorowało swoje instrukcje. Compliance chce audit trailów. Dorabianie tego wszystkiego do systemu, którego nikt pod to nie projektował, zawsze kosztuje więcej niż wbudowanie od startu. I zawsze zdarza się w środku projektu, bo nikt nie zaprasza prawników na demo prototypu.

Sam maintenance w pierwszym roku przekracza koszty developmentu. Migracje wersji modeli, łatki bezpieczeństwa, skalowanie i ciągły tuning, kiedy Twój agent zaczyna halucynować — pewnie serwować błędne odpowiedzi — na coraz bardziej kreatywne sposoby.

Ankieta Deloitte z listopada 2025 wykazała, że tylko 11% organizacji faktycznie uruchamia agentów AI na produkcji. Reszta utknęła w pilotach — zespoły porzuciły je po przekroczeniu budżetów albo po cichu odłożyły na półkę.

Druga strona arkusza kalkulacyjnego

Te koszty są realne, ale potrzebują kontekstu. Zespół supportu z 20 ludzi to $800K–1,2M rocznie samych pensji. Jeśli agent AI obsługuje 60% ticketów za $200K/rok łącznie, to wciąż ogromna wygrana.

Trend cenowy jest agresywnie spadkowy. Anthropic Haiku 4.5 kosztuje $1 za milion tokenów wejściowych — 80% taniej niż Opus (ten sam cennik powyżej). Sprytna architektura — routing prostych zapytań do tańszych modeli, cache'owanie częstych odpowiedzi, kompresja kontekstu — potrafi ściąć koszty LLM o 70–90%. Zespoły, które wysadzają budżet, używają Opus do wszystkiego, bo ich prompt engineering jest leniwy.

A te 11% na produkcji? Rok temu było 4%. Wskaźnik porażek jest wysoki, bo to nowa kategoria. Wczesne wskaźniki porażek wyglądały podobnie dla migracji do chmury, aplikacji mobilnych i każdej innej zmiany technologicznej, która w końcu stała się normą.

Co mówię każdemu, kto pyta 🦝

Potrój swój szacunek kosztów API. Cokolwiek wyliczyłeś z prototypu, pomnóż razy trzy. Użytkownicy będą używać agenta w sposób, którego nigdy nie testowałeś. Edge case'y wymagają więcej kontekstu. Zużycie tokenów rośnie, nigdy nie spada.

Zacznij od najtańszego modelu, który daje radę. Haiku do prostego routingu. Sonnet do większości zadań. Opus tylko do trudnych problemów. Model routing — automatyczne dobieranie, który model AI obsługuje dane zapytanie — to różnica między $5K/miesiąc a $50K/miesiąc przy tym samym ruchu. ⚡

Budżetuj na nudne rzeczy. Monitoring, logowanie, rate limiting, fallback handling, alerty kosztowe. Agent bez kontroli kosztów to karta kredytowa podpięta do generatora losowych liczb.

Planuj governance od pierwszego dnia. Nie od 90. dnia, nie "po launchu", nie "kiedy legal wyśle tego maila". Od pierwszego dnia.

Agenty AI na produkcji są drogie. Po prostu są tańsze niż alternatywy — jeśli budżetujesz na realia, a nie na demo. Firmy, które padają, budują swój business case na tym prototypowym runie za $47. Firmy, które wygrywają, patrzą na realne liczby i mówią "tak, to kosztuje $30K/miesiąc, i wciąż się opłaca".

Znaj różnicę, zanim wypchniesz na produkcję. 🚀