O Gap do Checkpoint: Agentes de Várias Horas Chegaram Antes do Crash Recovery

Você dispara um agente de seis horas numa terça à noite. Ele deveria raspar a página de preços de um concorrente, triar quarenta tickets mofados no Linear e rodar um dry-run de migração no Postgres enquanto você dorme. O dashboard diz "autônomo". O marketing diz "long-horizon". Seu cartão de crédito diz "tá, tanto faz". Você fecha o laptop.

Você acorda com uma tarefa pela metade, três tickets duplicados abertos no Linear em seu nome e um canal do Slack cheio de perguntas de um colega que achou que você estava acordado às 3 da manhã. O agente caiu na quarta hora. Ninguém — nem você, nem o fornecedor — sabe dizer se clicar em "resume" vai dobrar o estrago ou consertar.

Bem-vindo a abril de 2026, o mês em que agentes de várias horas viraram métrica de preço antes de virarem garantia de confiabilidade 😹.

Oito dias, três modelos de persistência, zero padrões

Entre 8 e 15 de abril, os dois maiores fornecedores de agentes lançaram três jeitos diferentes de manter um agente de IA vivo além da marca de uma hora — e nenhum deles concorda sobre o que "vivo" significa.

Em 14 de abril, a Anthropic lançou o Claude Code Routines — execuções de agente agendadas ou disparadas por webhook, em research preview, com tetos diários (5/dia no Pro, 15/dia no Max, 25/dia no Team e Enterprise). Intervalo mínimo entre execuções: uma hora. O The Register chamou educadamente de "cron jobs levemente espertos" 😼.

Em 15 de abril, a OpenAI lançou o Agents SDK v0.14.0 com uma nova superfície SandboxAgent, um backend de sandbox plugável (Docker, E2B, Modal, Vercel, Cloudflare — escolha o seu) e uma coisa chamada MEMORY.md — um arquivo markdown literal que o agente escreve para si mesmo entre execuções.

E em 8 de abril, a Anthropic já havia lançado os Managed Agents, que medem uso em session-hours — uma unidade de cobrança que assume explicitamente que seu agente vai rodar por horas a fio.

Três modelos de persistência. Zero interoperabilidade. Bem-vindo à autonomia long-horizon.

O que cada fornecedor está realmente persistindo

Uma pausa rápida — porque "o agente lembra" soa simples, e não é.

Um agente é um loop: o LLM (large language model — o cérebro por trás do ChatGPT ou do Claude) lê uma tarefa, chama uma ferramenta (busca na web, comando shell, chamada de API), lê o resultado, decide o que fazer em seguida. Um agente long-horizon é esse loop, rodando por horas. Um checkpoint é um snapshot salvo do estado do loop, para que, se o processo cair, você possa retomar do snapshot em vez de recomeçar do zero.

Eis o que cada fornecedor realmente salva:

Anthropic Routines — salva a conversa e o plano dentro de uma sessão. Segundo a documentação, "cada evento do GitHub que dá match inicia uma nova sessão" — sessões nem compartilham estado entre gatilhos. E: "eventos além do limite são descartados até a janela reiniciar" — ou seja, um pico de webhook perde trabalho silenciosamente, sem fila, sem retry 🙀.
OpenAI Sandbox Agents — salva um arquivo MEMORY.md dentro do filesystem do sandbox. A própria doc da OpenAI diz que ele "destila lições em arquivos legíveis em vez de preservar o estado completo do workspace". Em português chão: ele lembra o que aprendeu, não o que fez. Morreu no meio de um git push? O plano sobrevive. O commit meio-empurrado, não.
Anthropic Managed Agents — cobra por session-hour. O que uma session-hour de fato faz checkpoint está indocumentado.

Nenhum deles — nenhum — documenta o que acontece com os efeitos colaterais quando uma execução cai. Um efeito colateral é qualquer coisa que o agente tocou fora da própria memória: uma chamada de API disparada, um ticket criado no Linear, uma linha inserida no seu banco, uma mensagem enviada no Slack, um commit empurrado para o git. Essas coisas não dão rewind.

O "aha" que ninguém colocou na landing page

Eis a parte silenciosa em voz alta: quando um agente de várias horas cai e retoma, o checkpoint restaura a intenção do agente, não o estado do mundo sobre o qual o agente estava agindo.

Seu agente abriu um ticket no Linear na hora três. Caiu na hora quatro. O checkpoint da hora 3.5 não sabe que o ticket existe. Resume: ele abre o ticket de novo. Parabéns, você tem duplicatas — e, segundo a doc da Anthropic, "tickets do Linear… usam suas contas vinculadas", então as duplicatas estão no seu nome. Seus colegas acham que você está fazendo spam 😾.

Isso não é bug. É a arquitetura. A análise do The New Stack sobre o release da OpenAI observa que o harness "pode manter auth, billing, logs de auditoria, revisão humana e estado de recovery fora de qualquer container específico" — o que é verdade, e também é um jeito educado de dizer que o SDK tem opiniões sobre o estado dele, e nenhuma sobre o seu.

O Vertex Agent Engine do Google, para registro, teve Sessions e Memory Bank entrando em GA lá em dezembro de 2025; abril de 2026 só adicionou um preview do Agent Designer. Então ninguém — nem Anthropic, nem OpenAI, nem Google — resolve idempotência de efeitos colaterais por você.

O preço que ninguém colocou na página de preços

Idempotência — a propriedade de que fazer algo duas vezes tem o mesmo efeito que fazer uma — agora é inteiramente problema seu. Cada tool call que seu agente faz para o mundo externo precisa de uma idempotency key (um ID único por operação, para o serviço receptor deduplicar retries). Cada ação externa precisa de uma outbox journaled (um log que você escreve antes da ação, para saber o que tentou mesmo se cair antes de confirmar que deu certo).

Re-execuções custam em dobro: dobro de tokens (os pedaços de palavra que o LLM processa, cobrados por milhão), dobro de session-hours, dobro do wall-clock que você esperou. E como nenhum fornecedor oferece um formato portátil de checkpoint, você não pode fazer failover de Anthropic para OpenAI no meio da tarefa. Você está preso pelo formato dos seus bug reports.

A thread no Hacker News sobre Routines colocou sem rodeios: "Não vou construir meu negócio em cima de coisas que não consigo replicar sozinho". Outro comentarista notou que debugar uma routine de várias horas seria "enlouquecedor". Corretos em ambos os pontos 🐈‍⬛.

Se você está mandando isso para produção

Se você está rodando agentes além da marca de uma hora em abril de 2026, o checkpoint da plataforma não é sua história de recovery. É um recibo. Você precisa de três coisas que os fornecedores não construíram para você:

Uma outbox journaled — cada efeito colateral externo escreve num log antes de executar, para que o replay saiba o que o agente tentou.
Idempotency keys em toda tool call — GitHub, Linear, Slack, suas próprias APIs. Sem exceções.
Uma UI de resume manual — para um humano decidir se faz retry, pula ou aborta depois de uma queda. Não o agente. Não o fornecedor.

O que de fato mudou este mês

"Agentes rodam por horas" virou unidade de preço em abril de 2026. O encanamento por baixo ainda é de escala de quinze minutos. Em algum momento do próximo trimestre, uma empresa vai escrever o primeiro post-mortem público sobre um managed agent que ninguém conseguiu rebobinar — e a pergunta interessante não vai ser qual fornecedor falhou, mas por que alguém achou que o checkpoint era a garantia 😸.

Conselho do gato: rode sua própria outbox. Não confie no botão "resume" de fornecedor nenhum. E se um deck de vendas disser "autônomo", peça para eles definirem a palavra no papel.

O Gap do Checkpoint: Agentes de Várias Horas Chegaram Antes do Crash Recovery

Oito dias, três modelos de persistência, zero padrões

O que cada fornecedor está realmente persistindo

O "aha" que ninguém colocou na landing page

O preço que ninguém colocou na página de preços

Se você está mandando isso para produção

O que de fato mudou este mês

Keep reading

O Oligopólio dos Browser-Agents Que Ninguém Votou

Tool-Calling Morreu. Agora os Agentes Escrevem Código.

Todo SDK de Agente Entrega um Runtime. Nenhum Entrega os Testes.

Dois Vazamentos, Uma Empresa e um Vale-Dívida de $852 Bilhões