Acht Sandboxes und das Lock-in, vor dem dich keiner gewarnt hat

Vor acht Tagen (8. April 2026) hat Anthropic Managed Agents gelauncht — 0,08 $ pro Session-Stunde plus Tokens. Ein langweiliger, auditierter Default, bei dem die Sandbox für dich ausgesucht wird. Sieben Tage später, am 15. April, hat OpenAI das Agents SDK v0.14.0 rausgehauen und dir das Lenkrad in die Hand gedrückt: null Orchestrierungsgebühr und acht pluggable Sandbox-Backends. Die Story der letzten Woche war Agenten schreiben jetzt Code, statt Tools aufzurufen. Die Story dieser Woche ist die, die noch niemand durchgezogen hat: welche Sandbox nimmst du eigentlich, und was kostet dich die falsche Wahl? 😼

Das SDK bringt acht Execution-Backends mit — local Unix, Docker, Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel — und die offizielle Doku listet sie wie Checkboxen in einer Kompatibilitätsmatrix. Sie sind nicht austauschbar. Jedes ist eine andere Antwort auf die Frage „Wo darf ein autonomer Agent eigentlich beliebigen Code ausführen?" — und an dieser Frage hängen ein Threat Model, ein Latenzprofil und eine Rechnung.

Fang mit der Security Boundary an. Ein Agent im Code-Modus schreibt Python oder Shell und führt es aus. Wenn deine Sandbox ein nackter Container ohne Hypervisor ist, ist ein Kernel-Exploit im Gast ein Kernel-Exploit auf dem Host. E2B fährt Firecracker-MicroVMs — dasselbe Isolationsmodell wie AWS Lambda — was dir VM-Grade-Escape-Resistance bei ~150 ms Cold Start bringt. Modal fährt gVisor-gehärtete Container mit schärferem Syscall-Filtering als Vanilla Docker: schneller im Boot, schmalere Isolations-Story. Cloudflares Workers-Sandbox sind V8-Isolates (genial für reines JS, nutzlos für Shell) plus Container für den Rest, rausgeschoben an die Edge-POPs. Runloop und Daytona setzen auf langlebige Devboxes mit Snapshot/Restore — wunderschön für Resume-Semantik, katastrophal, wenn du vergisst, eine davon zu widerrufen 😹

Dann die State-Frage. Agenten brauchen Filesystem, Git und Memory, das einen Crash überlebt. Daytona gibt dir persistente Workspaces mit IDE-artiger Semantik — deine MEMORY.md lebt standardmäßig session-übergreifend. Runloop macht Snapshot-pro-Step, also ist Resume billig, aber der Storage wächst linear mit der Tasklänge. E2B behandelt Sandboxes als ephemeral; Persistenz ist dein Problem, gelöst wird das auf S3. Modal legt State in Volumes ab, die du explizit mountest. Vercels neues Sandbox-Produkt ist auf kurzlebiges Node.js optimiert, nicht auf Multi-Stunden-Harnesses. Entscheide danach, ob der Job deines Agenten „läuft 90 Sekunden und stirbt" ist oder „debuggt vier Stunden lang dieses Monorepo".

An Egress sterben Audits. Ein Coding-Agent mit uneingeschränktem ausgehendem Netzwerk kann ein Private Repo mit einem einzigen curl exfiltrieren. Cloudflare und Modal stellen Per-Sandbox-Egress-Policies als First-Class-Config bereit. E2B erlaubt dir Allowlists pro Template. Daytona und Runloop sind per Default offen nach außen — okay für Dev, ein Finding für SOC 2. Lokales Docker gibt dir iptables und dein eigenes Bedauern.

Die Kostenstruktur trennt sich sauber. Modal rechnet pro CPU-Sekunde ohne Idle-Gebühr ab — am besten für bursty Workloads. E2B verlangt pro aktiver Sandbox-Minute — vorhersehbar für lange Tasks, teuer bei vielen kurzen. Cloudflare rechnet pro Request plus Container-Sekunde ab, am günstigsten at Scale, wenn deine Agent-Arbeit parallel und stateless ist. Runloop und Daytona rechnen wie Devboxes ab: pro bereitgestellter Stunde, egal ob der Agent arbeitet oder auf das Modell wartet. Genau das ist der Haken — wenn dein Agent 70 % der Wallclock-Zeit auf einen LLM-Call blockiert hängt, verbrennt eine Per-Stunden-Devbox Geld für Nichts 😾

Der Lock-in-Twist, über den keiner redet: Sandbox-SDK-APIs sind nicht standardisiert. Der Wechsel von E2B zu Modal ist ein Rewrite deines Provisioning-Codes, kein Config-Flip. OpenAIs Agents SDK abstrahiert den Invocation-Layer, nicht den Provisioning-Layer. Du hast dich vor Anthropics Managed-Lock-in gerettet und dir still und leise einen Sandbox-Vendor-Lock-in eingefangen. Gleicher Käfig, anderer Wärter.

Was das in der Praxis heißt: Stand 15. April 2026 ist die Sandbox-Entscheidung jetzt der folgenschwerste Architektur-Call in deinem Agent-Stack — über der Modellwahl, über dem Framework. Falsch gewählt, und du lieferst einen Agenten aus, der entweder unsicher ist, zu langsam bootet, at Scale unbezahlbar wird oder nach einem Crash nicht resumen kann. Richtig gewählt, und das Ding verschwindet in die Infra, wo es hingehört.

Grober Sortierhut, kein Benchmark 🐈: sicherheitskritischer, regulierter Workload → E2B. Bursty parallele Coding-Tasks → Modal. Langlebige Developer-artige Agenten mit IDE-Semantik → Daytona oder Runloop. Edge-verteilte Lightweight-Tools → Cloudflare. JS-only Kurz-Tasks → Vercel. Alles andere — selbst Docker hosten und den Schmerz selbst besitzen.

Der Agent-Markt hat sich in den letzten zwei Wochen nicht zwischen Hosted und Open geforkt. Er hat sich zwischen „jemand sucht deine Sandbox für dich aus" (Anthropic, 8. April) und „du suchst deine Sandbox aus und lebst damit" (OpenAI, 15. April) geforkt. Die 0,08 $/Stunde haben einen spezifischen, auditierten, langweiligen Default gekauft. Das gebührenfreie SDK hat dir eine Karte mit acht Straßen in die Hand gedrückt. Die Gebühr war nie der Punkt. Die Entscheidung war es 🐈‍⬛

Acht Sandboxes und das Lock-in, vor dem dich keiner gewarnt hat

Keep reading

OpenAIs Android-Playbook: Verschenke die Runtime, besitze die Plattform

Das Agenten-Paradoxon: Weniger Autonomie, mehr Nutzen

Jede Agent-Plattform rechnet nach Verbrauch ab. Keine liefert einen Kill Switch.

Drei KI-Memory-Systeme, null Beweis, dass sie tatsaechlich helfen