Розрив у checkpoint: багатогодинні агенти випустили раніше, ніж відновлення після падіння

Ви запускаєте шестигодинного агента у вівторок ввечері. Він має зішкребти сторінку цін конкурента, розібрати сорок протухлих тікетів у Linear і прогнати dry-run міграції Postgres, поки ви спите. Дашборд каже «autonomous». Маркетинг каже «long-horizon». Ваша кредитка каже «ну добре, хай буде». Ви закриваєте ноутбук.

Прокидаєтесь — завдання виконане наполовину, три дублікати тікетів у Linear зареєстровані на ваше ім'я, а в Slack чекає колега, який думав, що це ви сиділи в чаті о третій ночі. Агент ліг на четвертій годині. Ніхто — ні ви, ні вендор — не може сказати, чи натискання «resume» подвоїть шкоду, чи її виправить.

Ласкаво просимо у квітень 2026 — місяць, коли багатогодинні агенти стали метрикою в прайслисті раніше, ніж гарантією надійності 😹.

Вісім днів, три моделі персистентності, нуль стандартів

Між 8 і 15 квітня два найбільших вендори агентів випустили три різні способи тримати AI-агента живим понад годину — і жоден з них не узгоджується щодо того, що означає «живий».

14 квітня Anthropic запустив Claude Code Routines — агентські запуски за розкладом або за вебхуком, research preview, з денними лімітами (5/день на Pro, 15/день на Max, 25/день на Team та Enterprise). Мінімальний інтервал розкладу — одна година. The Register ввічливо назвав це «трохи кмітливими cron-джобами» 😼.

15 квітня OpenAI випустив Agents SDK v0.14.0 з новим інтерфейсом SandboxAgent, плагабельним бекендом пісочниці (Docker, E2B, Modal, Vercel, Cloudflare — на вибір) і штукою під назвою MEMORY.md — буквально markdown-файлом, у який агент пише сам собі між запусками.

А 8 квітня Anthropic уже запустив Managed Agents, де використання тарифікується в session-hours — білінговій одиниці, яка прямо припускає, що ваш агент буде працювати годинами.

Три моделі персистентності. Нуль інтеропу. Ласкаво просимо в long-horizon автономію.

Що насправді зберігає кожен вендор

Маленький відступ — бо «агент пам'ятає» звучить просто, а це не так.

Агент — це цикл: LLM (large language model — мозок за ChatGPT чи Claude) читає задачу, викликає інструмент (веб-пошук, shell-команду, API-виклик), читає результат, вирішує, що робити далі. Long-horizon агент — це той самий цикл, який крутиться годинами. Checkpoint — це збережений знімок стану циклу, щоб коли процес упаде, можна було відновитись зі знімка, а не починати з нуля.

Ось що насправді зберігає кожен вендор:

Anthropic Routines — зберігає розмову і план всередині сесії. Згідно з документацією, «кожна відповідна GitHub-подія стартує нову сесію» — сесії навіть не ділять стан між тригерами. І: «події понад ліміт відкидаються, доки вікно не скинеться» — тобто сплеск вебхуків тихо втрачає роботу, без черги, без ретраю 🙀.
OpenAI Sandbox Agents — зберігає файл MEMORY.md у файловій системі пісочниці. Власна документація OpenAI каже, що він «дистилює уроки в читабельні файли, а не зберігає повний стан воркспейсу». Людською мовою: він пам'ятає те, чого навчився, а не те, що зробив. Вбили посеред git push? План виживе. Напівзапушений коміт — ні.
Anthropic Managed Agents — рахує по session-hour. Що саме чекпоїнтиться в session-hour — недокументовано.

Жоден з них — жоден — не документує, що відбувається з побічними ефектами, коли запуск падає. Побічний ефект — це все, чого агент торкнувся поза власною пам'яттю: відправлений API-виклик, створений тікет у Linear, вставлений рядок у вашу базу, надіслане повідомлення в Slack, запушений git-коміт. Це не відмотується назад.

Те «ага», чого ніхто не написав на лендингу

Ось та тиха частина вголос: коли багатогодинний агент падає і відновлюється, checkpoint відновлює намір агента, а не стан світу, на який агент діяв.

Ваш агент створив тікет у Linear на третій годині. Впав на четвертій. Checkpoint з години 3.5 не знає, що тікет існує. Resume — він створює тікет ще раз. Вітаю, у вас дублікати — а згідно з документацією Anthropic, «Linear tickets… use your linked accounts», тож дублікати зареєстровані на вас. Колеги думають, що це ви їх спамите 😾.

Це не баг. Це архітектура. Розбір The New Stack реліз-нотів OpenAI зазначає, що гарнес «може тримати auth, billing, audit logs, human review та recovery state поза будь-яким окремим контейнером» — це правда, і водночас ввічливий спосіб сказати, що SDK має думки про свій власний стан і жодних — про ваш.

Google Vertex Agent Engine, для протоколу, мав Sessions та Memory Bank у GA ще з грудня 2025; у квітні 2026 додали лише preview Agent Designer. Тож ніхто — ні Anthropic, ні OpenAI, ні Google — не вирішує ідемпотентність побічних ефектів за вас.

Ціна, якої ніхто не написав у прайслисті

Ідемпотентність — властивість, коли виконання чогось двічі має такий самий ефект, як одноразове виконання — тепер цілком ваша проблема. Кожен виклик інструменту, який ваш агент робить у зовнішній світ, потребує idempotency key (унікальний ID на операцію, щоб приймаюча сторона могла дедуплікувати ретраї). Кожна зовнішня дія потребує журнального outbox (лог, у який ви пишете перед дією, щоб знати, що ви намагалися зробити, навіть якщо впадете до підтвердження успіху).

Повторні запуски коштують удвічі: подвійні токени (word-chunks, які обробляє LLM, білінг за мільйон), подвійні session-hours, подвійний wall-clock, який ви прочекали. І оскільки жоден вендор не пропонує портативного формату checkpoint-у, ви не можете переключитися з Anthropic на OpenAI посеред задачі. Ви залочені формою своїх баг-репортів.

Тред на Hacker News про Routines сказав це прямо: «Я не буду будувати бізнес на речах, які не можу відтворити сам». Інший коментатор зауважив, що дебаг багатогодинної рутини буде «зводити з розуму». Правда по обох пунктах 🐈‍⬛.

Якщо ви викочуєте це в продакшн

Якщо ви ганяєте агентів довше години в квітні 2026, checkpoint платформи — це не ваша стратегія відновлення. Це чек. Вам потрібні три речі, яких вендори за вас не збудували:

Журнальний outbox — кожен зовнішній побічний ефект пишеться в лог перед виконанням, щоб реплей знав, що агент намагався зробити.
Idempotency keys на кожному виклику інструменту — GitHub, Linear, Slack, ваші власні API. Без винятків.
UI для ручного resume — щоб людина вирішувала, ретраїти, пропустити чи скасувати після падіння. Не агент. Не вендор.

Що насправді змінилося цього місяця

«Агенти працюють годинами» стало одиницею тарифікації в квітні 2026. Сантехніка під капотом досі на п'ятнадцятихвилинному масштабі. Десь у наступному кварталі якийсь enterprise напише перший публічний post-mortem про managed-агента, якого ніхто не зміг відмотати — і цікавим питанням буде не який вендор облажався, а чому хтось взагалі подумав, що checkpoint — це гарантія 😸.

Порада кота: крутіть власний outbox. Не довіряйте жодній вендорській кнопці «resume». І якщо в sales-деку написано «autonomous» — попросіть визначити це слово на папері.

Розрив у checkpoint: багатогодинні агенти випустили раніше, ніж відновлення після падіння

Вісім днів, три моделі персистентності, нуль стандартів

Що насправді зберігає кожен вендор

Те «ага», чого ніхто не написав на лендингу

Ціна, якої ніхто не написав у прайслисті

Якщо ви викочуєте це в продакшн

Що насправді змінилося цього місяця

Читай далі

Олігополія браузерних агентів, за яку ніхто не голосував

Tool-calling мертвий. Агенти тепер пишуть код.

Усі agent SDK випустили рантайм. Тести — ні

Два витоки, одна компанія та боргова розписка на $852 млрд