Ти сказав своєму новенькому блискучому AI-агенту: 'перевір ціни на квитки і забронюй найдешевший до $500'. Він відкрив браузер, чотири хвилини клацав по чомусь, а потім повернув тобі підтвердження бронювання не того аеропорту. Не іншого рейсу — іншого міста. Вітаю, ти щойно заплатив $470, щоб поїхати туди, куди не планував.
Ось про що ніхто не говорить. Усі сперечаються про orchestration SDK (клейовий код, який склеює AI-виклики в ланцюжки) та managed agent platforms (хостовані коробки, де живе твій агент). А тим часом реальна інфраструктура, яка дозволяє агенту 'користуватися інтернетом' — headless browser (Chrome без видимого вікна, керований кодом), пілотований vision-моделлю (AI, який читає скріншоти, як це робила б людина) — молодша, більш глючна і більш сконцентрована, ніж LLM-шар (large language model — мозок за ChatGPT, Claude, Gemini), навколо якого всі танцюють.
Між 2 і 15 квітня 2026 року browser-agent layer кристалізувався. 2 квітня опенсорсний фреймворк Browser Use випустив v0.12.6 з показовим рядком у changelog: 'fix O(n²) bottlenecks in DOM capture for heavy pages' — переклад: їхній попередній реліз квадратично тупив на великих сайтах, і ніхто цього не помічав, поки не поламалось у проді 😹. 3 квітня Browser Use Cloud став free-to-start, і кодингові агенти на кшталт Claude Code тепер можуть самі реєструвати собі акаунти в Browser Use прямо з CLI. Агенти, які провіжинять агентів. Ласкаво просимо в 2026 🙀.
6 квітня Browserbase запустив Stagehand Model Gateway — 'один API-ключ, один рахунок, доступ до топових моделей без управління провайдерами', цитата авторів Мігеля Гонсалеса і Харсехаджа Дхамі. Вони вже не просто вендор браузера. Вони хочуть бути білінговим хребтом над LLM-шаром.
Далі великі 48 годин. 14 квітня Anthropic перебудували Claude Code для десктопу і запустили Routines — заплановані agent-воркфлоу, що крутяться на хмарі Anthropic. 15 квітня OpenAI викотили масштабний апдейт Agents SDK з sandboxing (ізольовані робочі простори, щоб паралельні агенти не знищували стейт один одного), сабагентами, code mode і підтримкою 100+ LLM. The New Stack назвав це 'відділенням harness від compute' — ввічливий спосіб сказати, що OpenAI хоче з'їсти ланч Browserbase.
Воюють три архітектури. Навігація по accessibility-tree (читання структурного скелету сайту так, як це робить скрінрідер). Клацання vision-моделлю (Claude Computer Use буквально дивиться на скріншот і каже 'клацни на x=420, y=380'). І гібридна, як Stagehand, яка використовує обидва підходи. На бенчмарку WebArena-Verified (стандартний тест агентів на реальних веб-задачах) GPT-5.4 набирає 67.3%. На OSWorld-Verified — 75%, вище людського бейслайну в 72.4%. Звучить красиво, доки не прочитаєш стенфордську, тобто беркліївську статтю 'Illusion of Progress', яка стверджує, що більшість веб-агентів досі програють бейслайну 2024 року на сайтах, на яких їх не тренували 😾.
Тепер про ціну. Browser session-хвилини + LLM-токени + retry-цикли + плата за residential proxy легко втричі піднімають вартість однієї задачі порівняно з текстовим агентом. Гірше — режими збоїв тихі, а не гучні. Агент впевнено бронює не той рейс. Ніякого stack trace. Просто списання з картки і готель у Бербанку, хоча ти мав на увазі Берлінгтон 🐈⬛.
І ось у чому суть. Якщо ти викотив агента, який торкається вебу — ти вже обрав собі браузерного вендора, хочеш ти цього чи ні. Твій orchestration SDK імпортує його транзитивно. Твоя 'agent platform' — тонка обгортка навколо Browserbase, Browser Use або Anthropic Computer Use. Procurement-рішення, якого ти не приймав, — ймовірно, найбільший ризик надійності у твоєму стеку.
Війна Playwright-ів епохи агентів закінчилася ще до того, як більшість команд помітили, що вона почалася. Браузер тепер — тарифікований, білінгований, опосередкований LLM рядок у рахунку кожної продакшн AI-системи. Перевір інвойси 😼.





