El oligopolio de agentes-navegador que nadie votó

Le dijiste a tu flamante agente de IA: "busca precios de vuelos y reserva el más barato por debajo de $500". Abrió un navegador, anduvo haciendo clics durante cuatro minutos y te devolvió una confirmación para el aeropuerto equivocado. No era otro vuelo — era otra ciudad. Felicitaciones, acabas de pagar $470 para visitar un lugar al que no planeabas ir.

Esta es la parte de la que nadie habla. Todos discuten sobre SDKs de orquestación (el código pegamento que encadena llamadas a la IA) y plataformas gestionadas de agentes (cajas alojadas donde vive tu agente). Mientras tanto, la infraestructura real que le permite a un agente "usar internet" — un navegador headless (una instancia de Chrome sin ventana visible, manejada por código) piloteado por un modelo de visión (una IA que lee capturas de pantalla como lo haría un humano) — es más joven, más inestable y está más concentrada que la capa del LLM (large language model — el cerebro detrás de ChatGPT, Claude, Gemini) con la que todos están obsesionados.

Entre el 2 y el 15 de abril de 2026, la capa de agentes-navegador se cristalizó. El 2 de abril, el framework open-source Browser Use lanzó la v0.12.6 con esta línea reveladora en el changelog: "fix O(n²) bottlenecks in DOM capture for heavy pages" — traducción: su versión anterior se volvía cuadráticamente lenta en sitios grandes, y nadie se dio cuenta hasta producción 😹. El 3 de abril, Browser Use Cloud pasó a ser gratis para empezar, y agentes de código como Claude Code ahora pueden registrarse solos en Browser Use desde la CLI. Agentes aprovisionando agentes. Bienvenido a 2026 🙀.

El 6 de abril, Browserbase lanzó Stagehand Model Gateway — "una API key, una factura, acceso a los mejores modelos sin tener que gestionar proveedores", según los autores Miguel Gonzalez y Harsehaj Dhami. Ya no son solo el proveedor del navegador. Quieren ser la columna vertebral de facturación por encima de la capa del LLM.

Luego vinieron las grandes 48 horas. El 14 de abril, Anthropic reconstruyó Claude Code desktop y lanzó Routines — flujos de trabajo de agentes programados que corren en la nube de Anthropic. El 15 de abril, OpenAI lanzó una actualización masiva del Agents SDK con sandboxing (espacios de trabajo aislados para que agentes paralelos no se destrocen el estado entre sí), subagentes, code mode y soporte para más de 100 LLMs. The New Stack lo describió como "separar el arnés del cómputo" — una forma diplomática de decir que OpenAI quiere comerle el mandado a Browserbase.

Hay tres arquitecturas peleándose. Navegación por árbol de accesibilidad (leer el esqueleto estructurado de un sitio como lo hace un lector de pantalla). Clic por modelo de visión (Claude Computer Use literalmente mira una captura y dice "haz clic en x=420, y=380"). Y el híbrido, como Stagehand, que usa ambos. En el benchmark WebArena-Verified (una prueba estándar de agentes haciendo tareas web reales), GPT-5.4 saca 67.3%. En OSWorld-Verified, 75% — por encima del baseline humano de 72.4%. Suena genial hasta que lees el paper de Berkeley "Illusion of Progress", que argumenta que la mayoría de los agentes web aún rinden peor que un baseline de 2024 en sitios en los que no fueron entrenados 😾.

Ahora el precio. Minutos de sesión de navegador + tokens de LLM + loops de reintentos + fees de proxies residenciales triplican fácilmente el costo por tarea frente a un agente de solo texto. Peor aún, los modos de falla son silenciosos, no ruidosos — el agente reserva con total confianza el vuelo equivocado. Sin stack trace. Solo un cargo en tu tarjeta y un hotel en Burbank cuando querías Burlington 🐈‍⬛.

Aquí está el asunto. Si lanzas un agente que toca la web, ya elegiste un proveedor de navegador, lo sepas o no. Tu SDK de orquestación lo importa transitivamente. Tu "plataforma de agentes" es un wrapper delgado alrededor de Browserbase, Browser Use o Anthropic Computer Use. La decisión de compra que no tomaste es probablemente el mayor riesgo de confiabilidad en tu stack.

La guerra Playwright de la era de los agentes terminó antes de que la mayoría de los equipos notara que había empezado. El navegador ahora es un ítem medido, facturable y mediado por LLM en cada sistema de IA en producción. Revisa tus facturas 😼.

El oligopolio de agentes-navegador que nadie votó

Keep reading

El tool-calling murió. Los agentes ahora escriben código.

La brecha del checkpoint: los agentes multi-hora llegaron antes que el recovery de crashes

Todos los SDK de agentes traen runtime. Ninguno trae los tests.

Dos Filtraciones, Una Empresa y un Pagaré de $852 Mil Millones