Liczba, której brakuje na każdym dashboardzie agentów AI, jest ważniejsza niż wszystkie metryki, które vendorzy łaskawie postanowili pokazać: czy agent faktycznie zrobił to, o co go poprosiłeś?

W tym tygodniu dwie kolejne platformy dołączyły do klubu metryk konsumpcji. 10 kwietnia GitHub dodał liczniki aktywnych użytkowników dla swojego agenta chmurowego. 8 kwietnia Anthropic uruchomił Managed Agents za $0.08 za godzinę sesji — rozliczane co do milisekundy, tokeny osobno. Dołączyli do Google Vertex AI Agent Engine, który nalicza opłaty za vCPU-sekundę od wejścia w GA w zeszłym roku, i OpenAI Codex, którego metryka "Success Rate" mierzy, czy wywołanie API się zakończyło — a nie czy kod działa.

To jak mierzenie produktywności chirurga liczbą podniesionych skalpeli.

Cztery duże platformy. Zero wskaźników sukcesu zadań. Zero ocen jakości. Zero śledzenia, czy człowiek musiał potem poprawiać robotę agenta.

Dlaczego nikt nie mierzy tego, co ważne

Nie dlatego, że to nierozwiązywalny problem. Dlatego, że to drogie, żenujące i fatalne dla kwartalnych wyników.

Chatbot daje jedną odpowiedź i od razu ją oceniasz. Agent łączy dziesięć kroków — czyta ticket, przeszukuje dokumentację, pisze kod, otwiera PR, pinguje Slacka. Każdy krok może cicho padać. Ocena końcowego wyniku wymaga ekspertyzy domenowej. Vendorzy nie zdefiniowali nawet, co "sukces" oznacza dla agenta, a co dopiero to zmierzyli.

A badania, które istnieją, raczej nie nadają się na slajd dla inwestorów.

Luka niezawodności, o której nikt nie mówi

24 lutego badacze z Princeton — Kapoor i Narayanan — opublikowali studium testujące 14 modeli AI na 500 uruchomieniach benchmarków. Odkrycie: niezawodność agentów — powtarzalne poprawne wykonanie tego samego zadania — poprawiała się w tempie stanowiącym połowę tempa wzrostu surowej zdolności w zadaniach ogólnych. W zadaniach obsługi klienta niezawodność rosła jedynie w tempie 14% przyrostu dokładności. Wniosek badaczy: "Agenty nie potrafią rozpoznać, kiedy się mylą."

To jest liczba, która powinna widnieć na każdym dashboardzie. I nie widnieje.

Badacz AI Andrej Karpathy — współzałożyciel OpenAI, były szef AI w Tesli — policzył, co to oznacza w praktyce, w swoim frameworku "March of Nines" z listopada 2025: jeśli każdy krok w dziesięciokrokowym workflow udaje się w 90% przypadków, sukces end-to-end spada do 35%. Teraz wyobraź sobie takiego agenta pracującego autonomicznie o trzeciej w nocy, rozliczanego za godzinę, z nikim przy monitorze.

Dane potwierdzające się piętrzą. Analiza CodeRabbit opublikowana 19 marca zbadała 470 pull requestów na GitHubie i wykazała, że kod pisany przez AI generuje 1,7x więcej problemów na PR niż kod ludzki, a podatności bezpieczeństwa są 2,74x częstsze. Ankieta LangChain z 25 marca objęła 1340 praktyków: 57% już uruchamia agentów na produkcji, ale tylko 52% ewaluuje wyniki po fakcie, a zaledwie 37% monitoruje jakość podczas pracy agentów na żywo.

Ponad połowa branży wdrożyła agentów, zanim wymyśliła, jak sprawdzić, czy działają. Odważna strategia.

Podążaj za pieniędzmi

Billing oparty na zużyciu zarabia dokładnie tyle samo na nieudanej trzygodzinnej sesji, co na udanej. Vendor naliczający $0.08 za godzinę sesji ma zerową motywację finansową, żebyś odkrył, że 40% tych sesji produkuje śmieci. Mierzenie wyników aktywnie szkodziłoby metryce, którą obserwuje Wall Street: przychód na klienta.

Narzędzia observability firm trzecich — LangSmith, Braintrust, Helicone — próbują wypełnić lukę. Ale cztery największe platformy agentowe nie dostarczają nic natywnie. Dostajesz prędkościomierz bez nawigacji.

Co to oznacza dla ciebie

Jeśli twój zespół ocenia autonomicznych agentów — a statystycznie tak jest — wymagaj jednej liczby, której każdy vendor unika: jaki procent zadań agent realizuje poprawnie bez interwencji człowieka?

Jeśli nie potrafią odpowiedzieć, nie kupujesz narzędzia produktywności. Kupujesz licznik billingowy podłączony do rzutu monetą.

Ekonomia agentów wystartowała z fakturą tam, gdzie potrzebna była karta wyników. Dopóki ktoś tej karty nie zbuduje, ty jesteś warstwą jakości, której platforma nie dostarczyła. Planuj budżet odpowiednio.