Todos los vendors de agentes lanzaron dashboards de uso esta semana. Ninguno lanzo una tarjeta de calificaciones.

El número que falta en todos los dashboards de agentes de IA importa más que cualquier número que los vendors decidieron incluir: ¿el agente realmente hizo lo que le pediste?

Esta semana, dos plataformas más se sumaron al club de métricas de consumo. El 10 de abril, GitHub agregó conteo de usuarios activos para su agente en la nube. El 8 de abril, Anthropic lanzó Managed Agents a $0.08 USD por hora de sesión — facturado al milisegundo, tokens aparte. Se unen a Vertex AI Agent Engine de Google, que cobra por vCPU-segundo desde que salió a producción el año pasado, y al Codex de OpenAI, cuya métrica de "Success Rate" mide si la llamada a la API se completó — no si el código funciona.

Eso es como medir la productividad de un cirujano por cuántos bisturís agarró.

Cuatro plataformas principales. Cero tasas de éxito en tareas. Cero puntajes de calidad. Cero seguimiento de si un humano tuvo que rehacer el trabajo del agente.

Por qué nadie mide lo que importa

No porque sea imposible de resolver. Porque es caro, vergonzoso y malo para los reportes trimestrales.

Un chatbot da una respuesta y la juzgas de inmediato. Un agente encadena diez pasos — lee un ticket, busca documentación, escribe código, abre un PR, manda un mensaje en Slack. Cada paso puede fallar en silencio. El resultado final requiere conocimiento del dominio para evaluarlo. Los vendors ni siquiera han definido qué significa "éxito" para un agente, mucho menos lo han medido.

Y la investigación que sí existe no es algo que pondrías en una presentación para inversionistas.

La brecha de confiabilidad que nadie anuncia

El 24 de febrero, los investigadores de Princeton Kapoor y Narayanan publicaron un estudio probando 14 modelos de IA en 500 ejecuciones de benchmarks. Su hallazgo: la confiabilidad de los agentes — hacer la misma tarea correctamente cada vez — mejoró a la mitad de la velocidad que la capacidad bruta en tareas generales. En tareas de atención al cliente, la confiabilidad avanzó apenas al 14% del ritmo de la precisión. Su conclusión: "Los agentes no saben cuándo se equivocan."

Este es el número que debería estar en cada dashboard y no está.

Andrej Karpathy — investigador de IA, cofundador de OpenAI, ex-líder de IA en Tesla — cuantificó lo que esto significa en la práctica con su framework "March of Nines" en noviembre de 2025: si cada paso en un flujo de diez pasos tiene 90% de éxito, el éxito de punta a punta cae al 35%. Ahora imagina ese agente corriendo de forma autónoma a las 3 AM, facturado por hora, sin nadie vigilando.

Los datos de respaldo siguen acumulándose. Un análisis de CodeRabbit publicado el 19 de marzo examinó 470 PRs en GitHub y encontró que el código generado por IA produce 1.7x más problemas por PR que el código humano, con vulnerabilidades de seguridad 2.74x más altas. La encuesta de LangChain publicada el 25 de marzo consultó a 1,340 profesionales: el 57% ya corre agentes en producción, pero solo el 52% evalúa los resultados después del hecho, y apenas el 37% monitorea la calidad mientras los agentes corren en vivo.

Más de la mitad de la industria desplegó agentes antes de averiguar cómo saber si funcionan. Estrategia audaz.

Sigue el dinero

La facturación por uso cobra exactamente lo mismo por una sesión fallida de tres horas que por una exitosa. Un vendor que cobra $0.08 por hora de sesión tiene cero incentivo financiero para ayudarte a descubrir que el 40% de esas sesiones produce basura. Medir resultados perjudicaría activamente la métrica que Wall Street vigila: ingreso por cliente.

Herramientas de observabilidad de terceros — LangSmith, Braintrust, Helicone — están intentando llenar el vacío. Pero las cuatro plataformas de agentes más grandes no ofrecen nada nativo. Te dan un velocímetro sin destino.

Qué significa esto para ti

Si tu equipo evalúa agentes autónomos — y estadísticamente, lo hace — exige el único número que todos los vendors evitan: ¿qué porcentaje de tareas completa tu agente correctamente sin intervención humana?

Si no pueden responder, no estás comprando una herramienta de productividad. Estás comprando un medidor de facturación conectado a un volado.

La economía de agentes se lanzó con una factura donde necesitaba una tarjeta de calificaciones. Hasta que alguien construya esa tarjeta, tú eres la capa de calidad que la plataforma no incluyó. Presupuesta en consecuencia.

Todos los vendors de agentes lanzaron dashboards de uso esta semana. Ninguno lanzo una tarjeta de calificaciones.

Por qué nadie mide lo que importa

La brecha de confiabilidad que nadie anuncia

Sigue el dinero

Qué significa esto para ti

Keep reading

Cada vendor construyo un cuarto. Nadie construyo el pasillo.

Nadie ofrece confiabilidad de cadenas de agentes. Asi se construye.

La paradoja de los agentes: menos autonomia, mas valor

Tres plataformas de agentes, tres especies distintas