La paradoja de los agentes: menos autonomia, mas valor

Todos los vendors de IA se pasaron abril vendiéndote el mismo sueño: agentes autónomos — pequeños empleados digitales que escriben código, cierran tickets y responden correos de clientes mientras tú te enfocas en la "estrategia". Anthropic, OpenAI, Google — los tres lanzaron plataformas de agentes en menos de dos semanas. Tu feed de LinkedIn parece feria de empleo para robots.

Ahora, lo que nadie menciona en el keynote: tu jefe ya te escribió por Slack preguntando cuándo TU equipo va a implementar agentes. Los demos son hermosos — un agente va de reporte de bug a pull request en minutos, el público aplaude como si nunca hubiera visto un bash script. Pero, ¿qué pasa realmente después de que termina el demo y apagan las cámaras?

Tres lanzamientos cayeron uno detrás del otro. Anthropic lanzó Managed Agents el 8 de abril — APIs de agentes en la nube (una forma de que tu software cree y controle agentes remotamente) a $0.08 por hora de sesión. OpenAI actualizó su Agents SDK el 15 de abril con ejecución nativa en sandbox — los agentes corren código dentro de una caja sellada para que no puedan romper nada afuera. Y Google Cloud Next arrancó el 22 de abril con un keynote titulado "The Agentic Cloud", destacando ADK (Agent Development Kit), que había salido a principios de mes. Google metió human-in-the-loop como feature de primera clase desde el día uno — pausas al agente a mitad de tarea, un humano aprueba, y se reanuda.

Los early adopters se lanzaron de cabeza. Rakuten desplegó agentes especializados en cinco departamentos — producto, ventas, marketing, finanzas, RRHH — cada uno en producción en menos de una semana. El CTO de Asana reportó que estaban sacando features "dramáticamente más rápido". Notion conectó a Claude directamente a sus workspaces para manejar tareas en paralelo. ¿Y Sentry? Sentry se fue con todo: su agente va de bug detectado a pull request abierto sin intervención humana. Totalmente autónomo. El sueño del vendor hecho realidad.

Pero aquí viene la parte incómoda. Si seguiste la investigación independiente de este mes — y en este canal la hemos citado tanto que los lectores frecuentes ya se saben los números de memoria — el patrón nunca cambia. El código de IA trae 1.7× más defectos. Los PRs suben 20% mientras los incidentes suben 23.5%. Los desarrolladores borran una quinta parte del código aceptado de la IA y reescriben fuertemente otro 7%. Gartner predice que el 40% de los proyectos de agentes mueren para 2027. Más output, peores resultados. Todos y cada uno de los estudios. 😹

Andrej Karpathy lo dijo el 3 de abril — antes de que cualquiera de estas tres plataformas saliera. "La industria está dando un salto demasiado grande y está tratando de fingir que esto es increíble, y no lo es." Tres semanas y tres lanzamientos después, nada le dio la contra.

Esto crea una brecha estructural entre el marketing y la realidad. Los vendors compiten por máxima autonomía porque en el escenario se ve espectacular. Pero los datos de producción dicen lo opuesto: alcance acotado le gana a capacidad amplia. Los flujos de lectura (donde los agentes analizan pero rara vez modifican) le ganan a los de escritura. Los checkpoints humanos antes de cualquier acción con consecuencias le ganan al piloto automático total. Incluso el éxito "totalmente autónomo" de Sentry funciona precisamente porque bug-triage-a-PR es un dominio inherentemente acotado — no porque la autonomía en sí gane. 😾

Google tal vez lo entiende. Su ADK trae human-in-the-loop como el camino por defecto, no como un parche de último minuto. Como escribió John Furrier de SiliconANGLE el 20 de abril: "Las features se montan encima de las plataformas. Los sistemas operativos definen la plataforma." La competencia real no es quién construye el agente más autónomo — es quién construye el mejor plano de control.

Así que cuando tu jefe te pregunte por los agentes, no le reenvíes el clip del keynote. Hacé una sola pregunta sobre cualquier plataforma: ¿qué tan fácil es construir un agente estrictamente acotado con límites de alcance explícitos, modo solo lectura por defecto, y aprobación humana obligatoria antes de cualquier acción con consecuencias? Si la respuesta es "bueno, eso se puede configurar..." — salí de ahí. Si es el comportamiento por defecto — tal vez tengas algo. 😼

El agente más inteligente no va a ganar la guerra de plataformas. El más controlable sí. Y eso invierte las prioridades del roadmap de todos los vendors. 🐈

La paradoja de los agentes: menos autonomia, mas valor

Keep reading

Anthropic construyo una plataforma encima de las plataformas que la financian. Los duenos acaban de darse cuenta.

Tres plataformas de agentes, tres especies distintas

Agentes Invisibles, Ley Visible: 102 Dias para que la UE Obligue a la IA a Identificarse

Tu agente de IA no tiene tecla de borrar