L'oligopole browser-agent que personne n'a voté

Tu as dit à ton tout nouvel agent IA tout brillant : « vérifie les prix des vols et réserve le moins cher sous 500 $ ». Il a ouvert un navigateur, cliqué partout pendant quatre minutes, et t'a tendu une confirmation pour le mauvais aéroport. Pas un autre vol — une autre ville. Bravo, tu viens de payer 470 $ pour visiter un endroit que tu n'avais pas prévu.

C'est la partie dont personne ne parle. Tout le monde se chamaille sur les SDK d'orchestration (le code colle qui enchaîne les appels IA) et les plateformes d'agents managés (des boîtes hébergées où vit ton agent). Pendant ce temps, l'infrastructure qui permet réellement à un agent « d'utiliser internet » — un headless browser (une instance Chrome sans fenêtre visible, pilotée par du code) piloté par un vision model (une IA qui lit les captures d'écran comme le ferait un humain) — est plus jeune, plus instable et plus concentrée que la couche LLM (large language model — le cerveau derrière ChatGPT, Claude, Gemini) sur laquelle tout le monde s'obsède.

Entre le 2 et le 15 avril 2026, la couche browser-agent s'est cristallisée. Le 2 avril, le framework open-source Browser Use a livré la v0.12.6 avec cette ligne de changelog révélatrice : « fix O(n²) bottlenecks in DOM capture for heavy pages » — traduction : leur version précédente ralentissait quadratiquement sur les gros sites, et personne ne l'avait remarqué jusqu'à la prod 😹. Le 3 avril, Browser Use Cloud est passé en free-to-start, et des agents de code comme Claude Code peuvent désormais s'inscrire à Browser Use tout seuls depuis la CLI. Des agents qui provisionnent des agents. Bienvenue en 2026 🙀.

Le 6 avril, Browserbase a lancé Stagehand Model Gateway — « une clé API, une facture, accès aux meilleurs modèles sans gérer les fournisseurs », selon les auteurs Miguel Gonzalez et Harsehaj Dhami. Ils ne sont plus juste le fournisseur de navigateur. Ils veulent être la colonne vertébrale de facturation au-dessus de la couche LLM.

Puis les 48 heures décisives. Le 14 avril, Anthropic a reconstruit Claude Code desktop et lancé Routines — des workflows d'agents planifiés tournant sur le cloud d'Anthropic. Le 15 avril, OpenAI a sorti une mise à jour massive de l'Agents SDK avec du sandboxing (des espaces de travail isolés pour que des agents parallèles ne se saccagent pas l'état mutuel), des subagents, le code mode, et le support de plus de 100 LLM. The New Stack a parlé de « séparer le harness du compute » — une manière polie de dire qu'OpenAI veut bouffer le déjeuner de Browserbase.

Trois architectures se battent. Navigation par accessibility-tree (lire le squelette structuré d'un site web comme le fait un lecteur d'écran). Clic par vision-model (Claude Computer Use regarde littéralement une capture d'écran et dit « clique en x=420, y=380 »). Et hybride, comme Stagehand, qui utilise les deux. Sur le benchmark WebArena-Verified (un test standard d'agents effectuant de vraies tâches web), GPT-5.4 obtient 67,3 %. Sur OSWorld-Verified, 75 % — au-dessus de la baseline humaine de 72,4 %. Ça sonne génial jusqu'à ce que tu lises le papier de Berkeley « Illusion of Progress », qui soutient que la plupart des agents web sous-performent encore une baseline de 2024 sur des sites sur lesquels ils n'ont pas été entraînés 😾.

Maintenant, le prix. Les minutes de session navigateur + tokens LLM + boucles de retry + frais de proxy résidentiel triplent facilement le coût par tâche comparé à un agent texte uniquement. Pire, les modes d'échec sont silencieux, pas bruyants — l'agent réserve le mauvais vol avec confiance. Pas de stack trace. Juste un débit sur ta carte et un hôtel à Lille au lieu de Lyon 🐈‍⬛.

Voilà le truc. Si tu livres un agent qui touche au web, tu as déjà choisi un fournisseur de navigateur, que tu le saches ou non. Ton SDK d'orchestration l'importe de manière transitive. Ta « plateforme d'agent » est un mince wrapper autour de Browserbase, Browser Use, ou Anthropic Computer Use. La décision d'achat que tu n'as pas prise est probablement le plus gros risque de fiabilité de ton stack.

La guerre Playwright de l'ère des agents est finie avant que la plupart des équipes n'aient remarqué qu'elle commençait. Le navigateur est désormais une ligne facturée, mesurée, médiée par LLM dans chaque système IA en production. Vérifie tes factures 😼.

L'oligopole browser-agent que personne n'a voté

Keep reading

Le tool-calling est mort. Les agents écrivent du code maintenant.

Le Checkpoint Gap : les agents multi-heures expédiés avant la récupération sur crash

Chaque SDK d'agent livre un runtime. Aucun ne livre les tests.

Deux fuites, une entreprise, et un IOU de 852 milliards