Luka w checkpointach: wielogodzinni agenci wyszli, zanim wyszło recovery po crashu

Odpalasz sześciogodzinnego agenta we wtorek wieczorem. Ma zeskrobać stronę z cennikiem konkurencji, przejrzeć czterdzieści zaległych ticketów w Linear i odpalić próbną migrację Postgresa, podczas gdy ty śpisz. Dashboard mówi "autonomous". Marketing krzyczy "long-horizon". Twoja karta kredytowa mówi "dobra, niech będzie". Zamykasz laptopa.

Budzisz się do niedokończonego taska, trzech zduplikowanych ticketów w Linear zgłoszonych na twoje nazwisko i kanału na Slacku pełnego pytań od kolegi z zespołu, który myślał, że ty nie spałeś o 3 nad ranem. Agent wywalił się w czwartej godzinie. Nikt — ani ty, ani dostawca — nie potrafi powiedzieć, czy kliknięcie "resume" podwoi szkody, czy je naprawi.

Witaj w kwietniu 2026 — miesiącu, w którym wielogodzinni agenci stali się jednostką rozliczeniową, zanim stali się gwarancją niezawodności 😹.

Osiem dni, trzy modele persystencji, zero standardów

Między 8 a 15 kwietnia dwaj najwięksi dostawcy agentów wypuścili trzy różne sposoby na utrzymanie agenta AI przy życiu ponad godzinę — i żaden z nich nie zgadza się co do tego, co znaczy "przy życiu".

14 kwietnia Anthropic uruchomił Claude Code Routines — zaplanowane lub triggerowane webhookiem uruchomienia agenta, w wersji research preview, z dziennymi limitami (5/dzień na Pro, 15/dzień na Max, 25/dzień na Team i Enterprise). Minimalny interwał harmonogramu: godzina. The Register uprzejmie nazwał to "lekko sprytnym cronem" 😼.

15 kwietnia OpenAI wypuściło Agents SDK v0.14.0 z nowym interfejsem SandboxAgent, wymiennym backendem sandboxa (Docker, E2B, Modal, Vercel, Cloudflare — wybieraj) i czymś o nazwie MEMORY.md — dosłownym plikiem markdown, który agent sam sobie zapisuje między uruchomieniami.

A 8 kwietnia Anthropic uruchomił już Managed Agents, które rozliczają użycie w session-hours — jednostce rozliczeniowej, która wprost zakłada, że twój agent będzie działał godzinami.

Trzy modele persystencji. Zero interoperacyjności. Witaj w długoterminowej autonomii.

Co każdy dostawca faktycznie zapisuje

Krótka dygresja — bo "agent pamięta" brzmi prosto, a nie jest.

Agent to pętla: LLM (large language model — mózg stojący za ChatGPT lub Claude) czyta zadanie, woła narzędzie (wyszukiwanie w sieci, komendę shellową, wywołanie API), czyta wynik, decyduje, co dalej. Long-horizon agent to ta sama pętla, działająca godzinami. Checkpoint to zapisany snapshot stanu pętli — jeśli proces się wywali, możesz wznowić od snapshota zamiast startować od zera.

Oto co każdy dostawca faktycznie zapisuje:

Anthropic Routines — zapisuje konwersację i plan wewnątrz sesji. Według dokumentacji, "każdy pasujący event z GitHuba startuje nową sesję" — sesje nawet nie dzielą stanu między triggerami. I: "eventy ponad limit są odrzucane, dopóki okno się nie zresetuje" — czyli skok webhooków po cichu gubi pracę, bez kolejki, bez retry 🙀.
OpenAI Sandbox Agents — zapisuje plik MEMORY.md w filesystemie sandboxa. Własne docsy OpenAI mówią, że "destyluje lekcje do czytelnych plików, zamiast zachowywać pełny stan workspace'a". Po ludzku: pamięta, czego się nauczył, a nie co zrobił. Ubity w trakcie git push? Plan przeżyje. Half-pushed commit — nie.
Anthropic Managed Agents — billuje po session-hour. Co session-hour checkpointuje, jest nieudokumentowane.

Żaden z nich — żaden — nie dokumentuje, co dzieje się z side-effectami, kiedy run się wywali. Side-effect to wszystko, czego agent dotknął poza własną pamięcią: wywołany API call, stworzony ticket w Linear, wstawiony wiersz do bazy, wysłana wiadomość na Slacku, wypchnięty commit w gicie. To się nie cofa.

To "aha", którego nikt nie wrzucił na landing page

Cicha część na głos: kiedy wielogodzinny agent się wywala i wznawia, checkpoint przywraca intencję agenta, a nie stan świata, na który agent działał.

Twój agent zgłosił ticket w Linear w trzeciej godzinie. Wywalił się w czwartej. Checkpoint z 3,5 godziny nie wie, że ticket istnieje. Resume: zgłasza ticket ponownie. Gratulacje, masz duplikaty — a według docsów Anthropica "tickety w Linear… używają twoich podłączonych kont", więc duplikaty są pod twoim nazwiskiem. Zespół myśli, że to ty ich spamujesz 😾.

To nie bug. To architektura. Analiza The New Stack release notes OpenAI zauważa, że harness "może trzymać auth, billing, audit logi, human review i recovery state poza jakimkolwiek jednym kontenerem" — co jest prawdą, a zarazem uprzejmym sposobem powiedzenia, że SDK ma opinie na temat swojego stanu i zero na temat twojego.

Google Vertex Agent Engine — dla porządku — miał Sessions i Memory Bank w GA już od grudnia 2025; kwiecień 2026 dorzucił tylko Agent Designer w preview. Więc nikt — ani Anthropic, ani OpenAI, ani Google — nie rozwiązuje za ciebie idempotencji side-effectów.

Cena, której nikt nie wrzucił na pricing page

Idempotencja — właściwość, że wykonanie czegoś dwa razy daje ten sam efekt, co jedno wykonanie — to teraz wyłącznie twój problem. Każdy tool call, który twój agent robi do zewnętrznego świata, potrzebuje idempotency key (unikalne ID per operacja, żeby serwis odbierający deduplikował retry). Każda zewnętrzna akcja potrzebuje journaled outboxa (logu, który piszesz przed akcją, żebyś wiedział, co próbowałeś zrobić, nawet jeśli wywalisz się przed potwierdzeniem sukcesu).

Re-runy kosztują podwójnie: podwójne tokeny (fragmenty słów, które LLM przetwarza, rozliczane za milion), podwójne session-hours, podwójny wall-clock, który przeczekałeś. A ponieważ żaden dostawca nie oferuje przenośnego formatu checkpointa, nie możesz przesiąść się z Anthropica na OpenAI w połowie taska. Jesteś zablokowany kształtem własnych bug reportów.

Wątek na Hacker News o Routines ujął to wprost: "Nie zamierzam budować biznesu na rzeczach, których nie potrafię sam odtworzyć". Inny komentator zauważył, że debugowanie wielogodzinnego routine'a byłoby "doprowadzające do szału". Trafnie, w obu przypadkach 🐈‍⬛.

Jeśli wypuszczasz to na produkcję

Jeśli w kwietniu 2026 uruchamiasz agentów dłużej niż godzinę, checkpoint platformy nie jest twoją historią recovery. Jest paragonem. Potrzebujesz trzech rzeczy, których dostawcy za ciebie nie zbudowali:

Journaled outbox — każdy zewnętrzny side-effect pisze do logu przed wykonaniem, żeby replay wiedział, co agent próbował zrobić.
Idempotency keys na każdym tool callu — GitHub, Linear, Slack, twoje własne API. Bez wyjątków.
Manualny resume UI — żeby człowiek decydował, czy retry, skip czy abort po crashu. Nie agent. Nie dostawca.

Co faktycznie zmieniło się w tym miesiącu

"Agenci działają godzinami" stało się jednostką cenową w kwietniu 2026. Hydraulika pod spodem wciąż jest w skali piętnastominutowej. Gdzieś w następnym kwartale jakiś enterprise napisze pierwszy publiczny post-mortem o managed agencie, którego nikt nie potrafił cofnąć — i ciekawe pytanie nie będzie brzmiało który dostawca zawiódł, tylko dlaczego ktokolwiek myślał, że checkpoint był gwarancją 😸.

Rada kota: prowadź własny outbox. Nie ufaj żadnemu przyciskowi "resume" od dostawcy. A jeśli sales deck mówi "autonomous", poproś, żeby zdefiniowali to słowo na papierze.

Luka w checkpointach: wielogodzinni agenci wyszli, zanim wyszło recovery po crashu

Osiem dni, trzy modele persystencji, zero standardów

Co każdy dostawca faktycznie zapisuje

To "aha", którego nikt nie wrzucił na landing page

Cena, której nikt nie wrzucił na pricing page

Jeśli wypuszczasz to na produkcję

Co faktycznie zmieniło się w tym miesiącu

Keep reading

Oligopol browser-agentów, na który nikt nie głosował

Tool-calling nie żyje. Agenty piszą teraz kod.

Każdy agent SDK wypuszcza runtime. Żaden nie wypuszcza testów.

Dwa wycieki, jedna firma i IOU na 852 miliardy