Twoj agent AI nie ma klawisza Backspace

W tym miesiącu wdrożyłeś autonomiczne agenty. Tworzą pull requesty, aktualizują tickety projektowe, wypychają konfiguracje na serwery produkcyjne i wysyłają powiadomienia na Slacku — wszystko podczas gdy ty śpisz. Obietnica: deleguj nudne rzeczy, obudź się z listą zrobionych zadań.

Problem: agenty się mylą. Nie od czasu do czasu — badanie MAST z UC Berkeley, opublikowane w marcu 2025, zmierzyło od 41% do 86,7% współczynnik niepowodzeń w siedmiu najnowocześniejszych systemach wieloagentowych. I w odróżnieniu od chatbota halucynującego złą odpowiedź, którą możesz wygenerować ponownie, błąd agenta to zmergowany commit, utworzony ticket w Jirze, wysłana wiadomość. Realne akcje w realnych systemach. Nie możesz "wygenerować ponownie" wdrożonej konfiguracji.

Między 8 a 17 kwietnia trzy główne platformy wypuściły autonomiczne środowiska uruchomieniowe. 8 kwietnia Anthropic uruchomił Managed Agents — sandboxing, persystencja stanu, odzyskiwanie po błędach (czytaj: wznawianie po crashu). 14 kwietnia Anthropic dodał Routines — agenty działające w ich chmurze, odpalane harmonogramem lub webhookami. 15 kwietnia OpenAI wydało Agents SDK v0.14 z sandboxowaną egzekucją i "snapshottingiem" — odzyskiwaniem stanu kontenera po awariach. 17 kwietnia Google wypuścił Agent Development Kit (ADK) z zarządzaniem stanem na poziomie sesji i orkiestracją wieloagentową. Trzy platformy, zero prymitywów rollbacku — mechanizmów, które pozwoliłyby cofnąć to, co agent zrobił po tym, jak skończył robić złą rzecz.

Pisałem o luce w checkpointach w zeszłym tygodniu — platformy rozwiązują odzyskiwanie po crashu w trakcie działania. To łatwy problem. Twój agent umarł w połowie zadania, platforma przywraca jego stan, agent próbuje ponownie. Okej. Ale oto scenariusz, którego nikt nie rozwiązuje: twój agent zakończył się sukcesem. Dobiegł do końca, zaraportował zielone ptaszki, a wynik jest śmieciowy. PR merguje zepsutą logikę. Ticket w Jirze duplikuje istniejący. Strona w Notion nadpisuje poprawne dane zhalucynowanymi danymi. Agent nie crashnął — pewnie siebie skończył źle.

Kiedy agent merguje wadliwy pull request, tworzy zduplikowane taski w Asanie albo pushuje rozwalony dokument w Notion, oto co się dzieje: ty — człowiek — musisz ręcznie zidentyfikować każdą akcję, którą agent wykonał, prześledzić jej efekty kaskadowe (czy inny agent zareagował na zły PR? czy odpalił się webhook?), i cofnąć je jedną po drugiej. To sprzątanie skaluje się liniowo z liczbą wykonanych akcji. Więcej autonomii oznacza więcej bałaganu do posprzątania.

Dlaczego rollback nie istnieje natywnie? Dwa powody. Po pierwsze, odwracalność wymaga semantyki transakcyjnej — akcji kompensacyjnych, kluczy idempotentności, dzienników akcji. Narzędzia bazowe — GitHub, Linear, Slack, Notion — nie udostępniają tych prymitywów agentom. Twoja platforma agentowa nie mówi "cofnij", bo narzędzia, które wywołuje, też nie mówią "cofnij". Po drugie — i to jest ta część, o której nikt nie mówi głośno — nie ma motywacji biznesowej. Każda akcja agenta to płatne wywołanie API. Każdy ponowny start po nieudanym rollbacku to kolejna płatna sesja. Dostawcy platform zarabiają na append-only execution. Budowanie undo oznacza budowanie powodu, żeby klienci zużywali mniej cykli obliczeniowych. Nikt się dobrowolnie na taki model przychodowy nie pisze.

I tu wchodzą vendorzy od backupów, radośnie wypełniając lukę, której platformy agentowe nie chcą wypełnić. 14 kwietnia Commvault uruchomił AI Protect — marketowany dosłownie jako "Ctrl+Z dla zbuntowanych agentów AI". Mapuje strefę rażenia sesji agenta, izoluje zmiany spowodowane przez agenty od zmian ludzkich i umożliwia selektywne cofanie. Jak ujął to CTO Commvault Pranay Ahlawat: "W środowiskach agentowych agenty mutują stan w danych, systemach i konfiguracjach w sposób, który szybko się kumuluje i jest trudny do prześledzenia." Ironia jest gruba jak mur: twój dostawca platformy AI nie zbuduje undo, bo to uderza w ich marże; twój dostawca backupów zbuduje, bo niekompetencja twojego agenta to ich adresowalny rynek. Dwa martwe punkty, jedna ekstremalnie dochodowa katastrofa.

Równanie produktywności agentów wymaga aktualizacji. Jeśli choćby 30% autonomicznych przebiegów wymaga ręcznego cofania — a cofanie trwa dłużej niż oryginalne zadanie — to netto ROI dla tego workflow schodzi na minus. Zaoszczędziłeś 10 minut na szczęśliwej ścieżce i spędziłeś 40 minut na sprzątaniu ścieżki smutku.

Pierwsza platforma, która wyśle agent.rollback(session_id), wygra zaufanie enterprise'ów. Nie dlatego, że korporacje potrzebują agentów, które nigdy nie zawodzą — wszystko zawodzi — ale dlatego, że potrzebują agentów, których porażki kosztują mniej niż ich sukcesy oszczędzają. Do tego czasu każda platforma agentowa jest append-only: potrafi robić rzeczy, ale nie potrafi ich od-robić. Twój autonomiczny asystent nie ma klawisza Backspace.

Twoj agent AI nie ma klawisza Backspace

Keep reading

Paradoks agentow: mniej autonomii, wiecej wartosci

Trzy platformy agentowe, trzy rozne gatunki

Anthropic zbudowalo platforme na platformach, ktore je finansuja. Wlasciciele budynku wlasnie to zauwazyli

Okienko uprawnien twojego agenta to placebo