Há oito dias (8 de abril de 2026) a Anthropic lançou o Managed Agents a US$ 0,08 por hora de sessão mais tokens — um default chato, auditado, com o sandbox escolhido por você. Sete dias depois, em 15 de abril, a OpenAI soltou o Agents SDK v0.14.0 e te entregou o volante: taxa zero de orquestração e oito backends de sandbox plugáveis. A história da semana passada era agentes agora escrevem código em vez de chamar tools. A história desta semana é a que ninguém rodou ainda: qual sandbox você realmente escolhe, e quanto custa escolher errado? 😼

O SDK vem com oito backends de execução — Unix local, Docker, Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel — e a documentação oficial lista tudo como checkbox numa matriz de compatibilidade. Eles não são intercambiáveis. Cada um é uma resposta diferente para "onde um agente autônomo pode rodar código arbitrário?" — e essa pergunta vem com um threat model, um perfil de latência e uma fatura anexa.

Comece pela fronteira de segurança. Um agente em code mode escreve Python ou shell e executa. Se seu sandbox é um container simples sem hypervisor, um kernel exploit dentro do guest é um kernel exploit no host. O E2B roda microVMs Firecracker — o mesmo modelo de isolamento que o AWS Lambda usa — o que te dá resistência a escape de nível VM a ~150ms de cold start. A Modal roda containers endurecidos com gVisor e syscall filtering mais apertado que Docker puro: boot mais rápido, história de isolamento mais estreita. O sandbox da Cloudflare Workers são V8 isolates (ótimo para JS puro, inútil para shell) mais containers para o resto, empurrados para POPs na edge. Runloop e Daytona apostam em devboxes de longa duração com snapshot/restore — lindo para semântica de resume, péssimo se você esquecer de revogar um 😹

Depois, a pergunta de estado. Agentes precisam de filesystem, git e memória que sobrevive a crash. A Daytona te dá workspaces persistentes com semântica estilo IDE — seu MEMORY.md vive entre sessões por default. Runloop faz snapshot-por-step, então resume é barato mas o storage cresce linearmente com o tamanho da task. O E2B trata sandboxes como efêmeros; persistência é problema seu para resolver no S3. A Modal guarda estado em volumes que você monta explicitamente. O novo produto Sandbox da Vercel é otimizado para Node.js de curta duração, não para harnesses de múltiplas horas. Escolha com base se a task do seu agente é "roda noventa segundos e morre" ou "depura esse monorepo por quatro horas".

Egress é onde auditorias morrem. Um agente de código com rede de saída irrestrita exfiltra um repo privado num curl só. Cloudflare e Modal expõem políticas de egress por-sandbox como config de primeira classe. O E2B deixa você definir allowlists por template. Daytona e Runloop saem com egress aberto por default — tudo bem para dev, um finding para SOC 2. Docker local te dá iptables e seu próprio arrependimento.

A estrutura de custo se divide limpinho. Modal cobra por segundo de CPU sem cobrança de idle — melhor para cargas em rajada. E2B cobra por sandbox-minute ativo — previsível para tasks longas, caro para muitas curtas. Cloudflare cobra por request mais container-second, mais barato em escala se o trabalho do seu agente for paralelo e stateless. Runloop e Daytona cobram como devboxes: por hora provisionada, esteja o agente trabalhando ou esperando resposta do modelo. Essa última importa — se seu agente gasta 70% do wallclock bloqueado numa chamada de LLM, um devbox por hora está queimando dinheiro à toa 😾

A pegadinha de lock-in que ninguém comenta: APIs de SDK de sandbox não são padronizadas. Trocar de E2B para Modal é reescrita do seu código de provisionamento, não flip de config. O Agents SDK da OpenAI abstrai a camada de invocação, não a de provisionamento. Você se livrou do lock-in gerenciado da Anthropic e adotou quietinho o lock-in do fornecedor de sandbox no lugar. Mesma jaula, carcereiro diferente.

O que isso significa na prática: em 15 de abril de 2026, a decisão de sandbox virou a call arquitetural mais consequente na sua stack de agentes — acima da escolha do modelo, acima do framework. Escolha errada e você shippa um agente inseguro, lento para iniciar, inviável em escala ou irrecuperável depois de crash. Escolha certa e a coisa some dentro da infra, onde ela pertence.

Chapéu seletor tosco, não é benchmark 🐈: workload regulado com segurança em primeiro lugar → E2B. Tasks de coding paralelas em rajada → Modal. Agentes de longa duração estilo dev com semântica de IDE → Daytona ou Runloop. Ferramentas leves distribuídas na edge → Cloudflare. Tasks curtas só-JS → Vercel. Qualquer outra coisa, self-host Docker e assuma a dor.

O mercado de agentes não se dividiu entre hosted e open nas últimas duas semanas. Ele se dividiu entre "alguém escolhe seu sandbox por você" (Anthropic, 8 de abril) e "você escolhe seu sandbox e se vira" (OpenAI, 15 de abril). Os US$ 0,08/hora compravam um default específico, auditado, chato. O SDK de taxa zero te entregou um mapa com oito estradas. A taxa nunca foi o ponto. A decisão era 🐈‍⬛