Das Browser-Agenten-Oligopol, das niemand gewählt hat

Du hast deinem glänzenden neuen KI-Agenten gesagt: „Check Flugpreise und buch den günstigsten unter 500 Dollar." Er hat einen Browser geöffnet, vier Minuten lang herumgeklickt und dir eine Buchungsbestätigung für den falschen Flughafen zurückgegeben. Nicht für einen anderen Flug — für eine andere Stadt. Glückwunsch, du hast gerade 470 Dollar bezahlt, um irgendwo hinzufliegen, wo du nie hinwolltest.

Das ist der Teil, über den niemand spricht. Alle streiten über Orchestrierungs-SDKs (der Klebstoff-Code, der KI-Aufrufe aneinanderkettet) und Managed-Agent-Plattformen (gehostete Kisten, in denen dein Agent lebt). Währenddessen ist die eigentliche Infrastruktur, die einem Agenten erlaubt, „das Internet zu benutzen" — ein Headless-Browser (eine Chrome-Instanz ohne sichtbares Fenster, per Code gesteuert), pilotiert von einem Vision-Modell (eine KI, die Screenshots liest wie ein Mensch) — jünger, instabiler und konzentrierter als die LLM-Schicht (Large Language Model — das Hirn hinter ChatGPT, Claude, Gemini), über die alle so obsessiv reden.

Zwischen dem 2. und 15. April 2026 hat sich die Browser-Agenten-Schicht kristallisiert. Am 2. April veröffentlichte das Open-Source-Framework Browser Use v0.12.6 mit der vielsagenden Changelog-Zeile „fix O(n²) bottlenecks in DOM capture for heavy pages" — Übersetzung: Ihr vorheriges Release wurde auf großen Websites quadratisch langsam, und niemand hat es bemerkt, bis es in Production lief 😹. Am 3. April wurde Browser Use Cloud kostenlos zum Starten, und Coding-Agenten wie Claude Code können sich jetzt eigenständig aus der CLI bei Browser Use anmelden. Agenten provisionieren Agenten. Willkommen in 2026 🙀.

Am 6. April startete Browserbase das Stagehand Model Gateway — „ein API-Key, eine Rechnung, Zugang zu Top-Modellen ohne Provider-Management", laut den Autoren Miguel Gonzalez und Harsehaj Dhami. Sie sind nicht mehr nur der Browser-Anbieter. Sie wollen das Abrechnungs-Rückgrat über der LLM-Schicht werden.

Dann die großen 48 Stunden. Am 14. April hat Anthropic Claude Code Desktop neu gebaut und Routines gelauncht — geplante Agent-Workflows, die auf Anthropics Cloud laufen. Am 15. April hat OpenAI ein massives Agents-SDK-Update veröffentlicht mit Sandboxing (isolierte Workspaces, damit parallele Agenten sich nicht gegenseitig den State zerschießen), Subagenten, Code Mode und Support für 100+ LLMs. The New Stack nannte es „separating the harness from the compute" — eine höfliche Art zu sagen, dass OpenAI Browserbase das Mittagessen wegfressen will.

Drei Architekturen kämpfen. Accessibility-Tree-Navigation (das strukturierte Skelett einer Website lesen, wie es ein Screenreader tut). Vision-Modell-Klicken (Claude Computer Use schaut wortwörtlich auf einen Screenshot und sagt „klick bei x=420, y=380"). Und Hybrid, wie Stagehand, das beides nutzt. Auf dem WebArena-Verified-Benchmark (ein Standardtest für Agenten, die echte Web-Aufgaben erledigen) erreicht GPT-5.4 67,3%. Auf OSWorld-Verified 75% — über der menschlichen Baseline von 72,4%. Klingt super, bis du Berkeleys „Illusion of Progress"-Paper liest, das argumentiert, dass die meisten Web-Agenten auf Seiten, auf denen sie nicht trainiert wurden, immer noch schlechter abschneiden als eine 2024er-Baseline 😾.

Jetzt der Preis. Browser-Session-Minuten + LLM-Tokens + Retry-Loops + Residential-Proxy-Gebühren verdreifachen locker die Kosten pro Task gegenüber einem reinen Text-Agenten. Schlimmer noch: Failure-Modes sind still, nicht laut — der Agent bucht selbstbewusst den falschen Flug. Kein Stacktrace. Nur eine Abbuchung auf deiner Karte und ein Hotel in Bottrop, obwohl du Bottmingen meintest 🐈‍⬛.

Jetzt die Sache. Wenn du einen Agenten ausrollst, der das Web anfasst, hast du dich bereits für einen Browser-Anbieter entschieden — ob du es weißt oder nicht. Dein Orchestrierungs-SDK importiert ihn transitiv. Deine „Agent-Plattform" ist ein dünner Wrapper um Browserbase, Browser Use oder Anthropic Computer Use. Die Procurement-Entscheidung, die du nicht getroffen hast, ist wahrscheinlich das größte Zuverlässigkeitsrisiko in deinem Stack.

Der Playwright-Krieg der Agenten-Ära ist vorbei, bevor die meisten Teams überhaupt gemerkt haben, dass er angefangen hat. Der Browser ist jetzt ein abgerechneter, gebührenpflichtiger, LLM-vermittelter Posten in jedem produktiven KI-System. Check deine Rechnungen 😼.

Das Browser-Agenten-Oligopol, das niemand gewählt hat

Keep reading

Tool-Calling ist tot. Agenten schreiben jetzt Code.

Die Checkpoint-Lücke: Multi-Stunden-Agents geliefert, Crash-Recovery vergessen

Jedes Agent-SDK liefert eine Runtime. Keines die Tests.

Zwei Leaks, Ein Unternehmen und ein $852-Milliarden-Schuldschein