Powiedziałeś swojemu nowiutkiemu agentowi AI: „sprawdź ceny lotów i zarezerwuj najtańszy poniżej 500 dolarów". Otworzył przeglądarkę, poklikał przez cztery minuty i wrócił z potwierdzeniem na złe lotnisko. Nie inny lot — inne miasto. Gratulacje, właśnie zapłaciłeś 470 dolarów za wizytę w miejscu, którego nie planowałeś.
O tej części nikt nie mówi. Wszyscy kłócą się o SDK do orkiestracji (kod-klej, który łączy wywołania AI w łańcuchy) i zarządzane platformy agentów (hostowane pudełka, w których mieszka twój agent). Tymczasem prawdziwa infrastruktura, która pozwala agentowi „używać internetu" — headless browser (instancja Chrome bez widocznego okna, sterowana kodem) pilotowana przez model wizyjny (AI, które czyta zrzuty ekranu jak człowiek) — jest młodsza, bardziej niestabilna i bardziej skoncentrowana niż warstwa LLM (large language model — mózg stojący za ChatGPT, Claude, Gemini), na której wszyscy się fiksują.
Między 2 a 15 kwietnia 2026 warstwa browser-agentów skrystalizowała się. 2 kwietnia otwartoźródłowy framework Browser Use wypuścił v0.12.6 z wymownym wpisem w changelogu „fix O(n²) bottlenecks in DOM capture for heavy pages" — w tłumaczeniu: ich poprzedni release zwalniał kwadratowo na dużych stronach, i nikt nie zauważył aż do produkcji 😹. 3 kwietnia Browser Use Cloud przeszedł na free-to-start, a agenty kodujące typu Claude Code mogą teraz same zakładać konta w Browser Use bezpośrednio z CLI. Agenty provisionujące agentów. Witaj w 2026 🙀.
6 kwietnia Browserbase wystartował Stagehand Model Gateway — „jeden klucz API, jeden rachunek, dostęp do topowych modeli bez zarządzania dostawcami", według autorów Miguela Gonzaleza i Harsehaja Dhami. Oni już nie są tylko dostawcą przeglądarki. Chcą być kręgosłupem billingowym ponad warstwą LLM.
Potem te wielkie 48 godzin. 14 kwietnia Anthropic przebudował Claude Code desktop i wypuścił Routines — harmonogramowane workflowy agentów działające w chmurze Anthropic. 15 kwietnia OpenAI wrzucił masywny update Agents SDK z sandboxingiem (izolowane workspace'y, żeby równoległe agenty nie rozwalały sobie nawzajem stanu), subagentami, code mode i wsparciem dla 100+ LLM-ów. The New Stack nazwał to „oddzieleniem harness od compute" — uprzejmy sposób powiedzenia, że OpenAI chce zjeść Browserbase'owi lunch.
Trzy architektury walczą. Nawigacja po drzewie dostępności (czytanie strukturalnego szkieletu strony tak, jak robi to czytnik ekranu). Klikanie modelem wizyjnym (Claude Computer Use dosłownie patrzy na screenshot i mówi „kliknij w x=420, y=380"). I hybryda, jak Stagehand, która używa obu. Na benchmarku WebArena-Verified (standardowy test agentów wykonujących realne zadania w webie) GPT-5.4 osiąga 67,3%. Na OSWorld-Verified — 75%, powyżej ludzkiego baseline'u 72,4%. Brzmi świetnie, dopóki nie przeczytasz berkeleyowskiego „Illusion of Progress", który pokazuje, że większość web agentów wciąż wypada gorzej niż baseline z 2024 na stronach, na których nie były trenowane 😾.
Teraz cena. Minuty sesji przeglądarki + tokeny LLM + pętle retry + opłaty za residential proxy łatwo trojaczkują koszt per task względem agenta czysto tekstowego. Co gorsza, tryby awarii są ciche, nie głośne — agent z pewnością siebie rezerwuje zły lot. Bez stack trace. Tylko obciążenie karty i hotel w Burbank, kiedy chodziło ci o Burlington 🐈⬛.
I tu jest haczyk. Jeśli wdrażasz agenta, który dotyka webu, już wybrałeś dostawcę przeglądarki, czy zdajesz sobie z tego sprawę czy nie. Twój orkiestracyjny SDK importuje go tranzytywnie. Twoja „platforma agentów" to cienki wrapper nad Browserbase, Browser Use albo Anthropic Computer Use. Decyzja zakupowa, której nie podjąłeś, jest prawdopodobnie największym ryzykiem niezawodności w twoim stacku.
Playwrightowa wojna ery agentów skończyła się, zanim większość zespołów w ogóle zauważyła, że się zaczęła. Przeglądarka jest teraz rozliczaną minutowo, fakturowaną, pośredniczoną przez LLM pozycją w każdym produkcyjnym systemie AI. Sprawdź swoje faktury 😼.





