Osiem dni temu (8 kwietnia 2026) Anthropic wypuścił Managed Agents w cenie $0.08 za godzinę sesji plus tokeny — nudny, audytowany domyślny wybór, gdzie sandbox jest dobrany za ciebie. Siedem dni później, 15 kwietnia, OpenAI shipnęło Agents SDK v0.14.0 i oddało ci kierownicę: zero opłaty za orkiestrację i osiem podpinanych backendów sandboxowych. Historia zeszłego tygodnia brzmiała: agenci teraz piszą kod zamiast wołać narzędzia. Historia tego tygodnia to ta, której nikt jeszcze nie przepracował: który sandbox właściwie wybierasz i ile kosztuje cię zły wybór? 😼

SDK dostarcza osiem backendów wykonawczych — lokalny Unix, Docker, Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel — a oficjalna dokumentacja wymienia je jak checkboxy w macierzy kompatybilności. One nie są wymienne. Każdy to inna odpowiedź na pytanie „gdzie autonomiczny agent może odpalić dowolny kod?” — a to pytanie ma podpięty model zagrożeń, profil latencji i rachunek do zapłaty.

Zacznij od granicy bezpieczeństwa. Agent w trybie kodu pisze Pythona albo shella i go wykonuje. Jeśli twój sandbox to zwykły kontener bez hypervisora, exploit kernela w guestcie jest exploitem kernela na hoście. E2B odpala Firecracker microVM — ten sam model izolacji, którego używa AWS Lambda — co kupuje odporność ucieczki na poziomie VM przy ~150ms cold starcie. Modal odpala kontenery zhardenowane przez gVisor z ciaśniejszym filtrowaniem syscalli niż waniliowy Docker: szybszy boot, węższa historia izolacji. Sandbox Cloudflare Workers to V8 isolates (świetne dla czystego JS, bezużyteczne dla shella) plus kontenery do reszty, pushowane do edge POP-ów. Runloop i Daytona stawiają na długowieczne devboksy ze snapshotem/restorem — piękne dla semantyki resume, tragiczne jeśli zapomnisz któryś zrewokować 😹

Potem kwestia stanu. Agenci potrzebują filesystemu, gita i pamięci, która przeżyje crash. Daytona daje ci persistentne workspace'y z semantyką IDE — twój MEMORY.md domyślnie żyje między sesjami. Runloop robi snapshot-per-step, więc resume jest tanie, ale storage rośnie liniowo z długością zadania. E2B traktuje sandboxy jako efemeryczne; persistencja to twój problem do rozwiązania na S3. Modal trzyma stan w volumach, które sam mountujesz explicite. Nowy produkt Sandbox od Vercela jest zoptymalizowany pod krótkie Node.js, nie pod wielogodzinne harnessy. Wybieraj bazując na tym, czy zadanie twojego agenta to „odpal dziewięćdziesiąt sekund i zdechnij”, czy „debuguj ten monorepo przez cztery godziny”.

Egress to miejsce, w którym audyty umierają. Agent kodujący z nieograniczonym ruchem wychodzącym może wyexfiltrować prywatne repo jednym curl. Cloudflare i Modal wystawiają polityki egressu per-sandbox jako first-class config. E2B pozwala zdefiniować allowlisty per template. Daytona i Runloop domyślnie mają otwarty egress — ok dla deva, finding dla SOC 2. Lokalny Docker daje ci iptables i twój własny żal.

Struktura kosztów dzieli się czysto. Modal rozlicza per sekundę CPU bez opłaty za idle — najlepszy dla burstowych workloadów. E2B liczy per aktywną sandbox-minutę — przewidywalny dla długich zadań, drogi dla wielu krótkich. Cloudflare liczy per request plus kontener-sekundę, najtańszy przy skali jeśli praca agenta jest równoległa i bezstanowa. Runloop i Daytona rozliczają się jak devboksy: per godzinę provisionowania, niezależnie czy agent pracuje, czy czeka na model. To ostatnie ma znaczenie — jeśli twój agent spędza 70% wallclocka zablokowany na wywołaniu LLM, devbox per-hour pali kasę na nic 😾

Twist z lock-inem, o którym nikt nie gada: API SDK sandboxów nie są standaryzowane. Przeskok z E2B na Modal to przepisanie kodu provisioningu, nie flipnięcie configa. Agents SDK od OpenAI abstrahuje warstwę wywołania, nie warstwę provisioningu. Uratowałeś się przed managed lock-inem Anthropica i po cichu zaadoptowałeś lock-in vendora sandboxu. Ta sama klatka, inny dozorca.

Co to znaczy w praktyce: od 15 kwietnia 2026 decyzja o sandboxie jest teraz najpoważniejszym wyborem architektonicznym w twoim stacku agenta — ważniejszym niż wybór modelu, ważniejszym niż framework. Zły pick i shipujesz agenta, który jest albo niebezpieczny, albo wolno startuje, albo nieopłacalny przy skali, albo nieresumowalny po crashu. Dobry pick i to cholerstwo znika w infrze, gdzie jego miejsce.

Zgrubny rozdzielający kapelusz, nie benchmark 🐈: regulowany workload z security na pierwszym miejscu → E2B. Burstowe równoległe zadania kodujące → Modal. Długowieczne agenty w stylu developerskim z semantyką IDE → Daytona albo Runloop. Lekkie narzędzia dystrybuowane na edge → Cloudflare. Krótkie zadania tylko w JS → Vercel. Cała reszta — self-host Docker i bierz ból na klatę.

Rynek agentów nie rozwidlił się w ostatnie dwa tygodnie między hosted a open. Rozwidlił się między „ktoś wybiera sandbox za ciebie” (Anthropic, 8 kwietnia) a „ty wybierasz sandbox i z tym żyjesz” (OpenAI, 15 kwietnia). $0.08/godzinę kupowało specyficzny, audytowany, nudny default. Zero-fee SDK wręczyło ci mapę z ośmioma drogami. Opłata nigdy nie była sednem. Sednem była decyzja 🐈‍⬛