Podłączyłeś swojego agenta AI do pięciu narzędzi — Slack, GitHub, Jira, baza danych, email. Każde działa. Przetestowałeś je osobno, wszystko na zielono, przybijasz sobie piątkę. Dashboard pokazuje 95% success rate. Życie jest piękne.
Tylko że twój faktyczny workflow — czytaj z bazy, stwórz ticket, zaktualizuj repo, powiadom na Slacku, wyślij podsumowanie — po cichu gubi piłkę raz czy dwa dziennie. Żaden alarm nie wyje. Żaden dashboard nie robi się czerwony. Agent po prostu... nie kończy. A ty siedzisz i zastanawiasz się, czy tracisz rozum, czy maszyna prowadzi z tobą grę psychologiczną.
Luka, której nikt nie załatał
Google Cloud Next zakończyło się 22 kwietnia całą stertą ogłoszeń o agentach. Trzy dni wcześniej, 17 kwietnia, AWS uruchomił Agent Registry w AgentCore. A na początku miesiąca, 8 kwietnia, Anthropic wypuścił managed agents. Wszyscy trzej oferują teraz monitoring agentów. Wszyscy trzej mierzą metryki per narzędzie — latencję, error rate, liczbę requestów przez MCP (Model Context Protocol — uniwersalny standard wtyczek do narzędzi AI, taki USB, ale do danych). Nikt nie mierzy niezawodności złożonego łańcucha: prawdopodobieństwa, że twój wielokrokowy workflow faktycznie się zakończy.
Pięć kroków po 95% każdy? To 77,4% end-to-end. Proste mnożenie, którego twój dashboard odmawia wykonać.
Znać tę liczbę to krok pierwszy. Naprawić problem — to właściwa robota. Więc co dają nam frameworki?
Co frameworki faktycznie dostarczają
LangGraph jest najbliżej. Jego klasy Checkpointer zapisują stan na każdym węźle grafu. Krok czwarty pada, wznawiasz od trzeciego — nie od zera. Prawdziwa infrastruktura. Haczyk: cały agent musi być grafem stanów. Retrofitowanie istniejącego agenta oznacza przepisanie go od podstaw.
CrewAI daje ci max_retry_limit per task i callback hooks. To logika retry — to samo narzędzie, ten sam input, spróbuj jeszcze raz. Jeśli awaria wynika z błędnej odpowiedzi serwera MCP, powtarzanie identycznego żądania to definicja szaleństwa.
Google ADK, ogłoszony na Cloud Next 22 kwietnia, oferuje zarządzanie stanem na poziomie sesji. Ich warstwa observability — najbardziej zaawansowana z trójki — nadal renderuje trace'y per wywołanie. Widzisz latencję pojedynczego wywołania MCP. Nie widzisz 'ten pięciokrokowy łańcuch ukończył się 77% razy w tym tygodniu".
Managed agents od Anthropic śledzą status sesji, czas trwania i koszty. Przydatne do fakturowania. Bezużyteczne dla śledzenia ukończenia łańcucha.
Brakujący prymityw
Playbook Google Cloud Community opublikowany 9 marca dokumentuje podstawowy wzorzec, którego nikt nie dostarcza natywnie: checkpointing na poziomie kroków — zapisuj output każdego kroku, żebyś mógł wznowić łańcuch w środku. LangGraph to robi. Reszta: piszesz własną warstwę persystencji.
Playbook opisuje też circuit breakery, fallback routing i inne wzorce z mikroserwisów zaadaptowane dla agentów. Użyteczne referencje, ale prawdziwa luka jest wyżej w stosie: SLO na poziomie łańcucha. 'Ten workflow musi się kończyć end-to-end w 95% przypadków." Żadna platforma nie oferuje takiej metryki. Budujesz ją sam — z custom telemetrii, bazy time-series i własnych reguł alertingowych.
A to wszystko to prawdziwa robota inżynierska na platformach, które i tak ci już liczą — na przykład Anthropic po $0.08 za godzinę sesji.
Co zrobić w poniedziałek rano
Wybierz framework z natywnym checkpointingiem. Jeśli startujesz od zera, state persistence w LangGraph to najmniej zła opcja. Jeśli już masz działających agentów, dodaj zapis stanu per krok do trzech najważniejszych łańcuchów, zanim podepniesz kolejny serwer MCP.
Instrumentuj sukces na poziomie łańcucha. Nie per narzędzie — per workflow. Loguj jednego booleana: czy łańcuch się zakończył? Agreguj tygodniowo. Znienawidzisz tę liczbę, ale przynajmniej będziesz ją miał.
Łańcuchy muszą być krótkie. Trzy kroki, nie dziesięć. Każdy dodatkowy krok mnoży twoje prawdopodobieństwo porażki.
Prawdziwa luka w infrastrukturze
Następny sensowny upgrade stosu agentowego to nie mądrzejszy model ani szybsze narzędzie. To framework, który potraktuje niezawodność złożonego łańcucha tak, jak bazy danych traktują gwarancje transakcyjne — jako prymityw pierwszej klasy, a nie projekt 'zrób to sam". Checkpointing w LangGraph daje przebłysk tej przyszłości. Zarządzanie sesjami w Google ADK kiwa głową w tym samym kierunku. Reszta sprzedaje ci wytrzymałość pojedynczych ogniw i liczy na to, że nigdy nie pociągniesz za łańcuch.





