Conectaste tu agente de IA a cinco herramientas — Slack, GitHub, Jira, una base de datos, correo. Cada una funciona. Las probaste individualmente, todas con luz verde, te diste palmaditas en la espalda. Tu dashboard dice 95% de éxito. La vida es bella.
Excepto que tu flujo de trabajo real — leer base de datos, crear ticket, actualizar repo, notificar en Slack, enviar resumen — se pierde silenciosamente una o dos veces al día. Ninguna alarma suena. Ningún dashboard se pone rojo. El agente simplemente... no termina. Y te quedas preguntándote si te estás volviendo loco o si la máquina te está haciendo gaslighting.
El hueco que nadie arregló
Google Cloud Next cerró el 22 de abril con una montaña de anuncios sobre agentes. Tres días antes, el 17 de abril, AWS lanzó su Agent Registry en AgentCore. Y a principios de mes, el 8 de abril, Anthropic lanzó managed agents. Los tres ahora ofrecen monitoreo de agentes. Los tres miden métricas por herramienta — latencia, tasas de error, conteo de requests vía MCP (Model Context Protocol — un estándar universal de conexión para herramientas de IA, como USB pero para datos). Ninguno mide la confiabilidad compuesta de cadenas: la probabilidad de que tu flujo de trabajo de múltiples pasos realmente termine.
¿Cinco pasos al 95% cada uno? Eso es 77.4% de extremo a extremo. Multiplicación simple que tu dashboard se niega a hacer.
Saber el número es el paso uno. Arreglarlo es el trabajo real. Entonces, ¿qué te dan los frameworks?
Lo que los frameworks realmente ofrecen
LangGraph es el que más se acerca. Sus clases Checkpointer persisten el estado en cada nodo del grafo. ¿Falla el paso cuatro? Retomas desde el paso tres — no desde cero. Infraestructura real. El pero: todo tu agente tiene que ser un state graph. Adaptar un agente existente significa reescribirlo.
CrewAI te da max_retry_limit por tarea y callback hooks. Eso es lógica de reintentos — misma herramienta, mismo input, inténtalo de nuevo. Si la falla viene de una respuesta malformada del servidor MCP, reintentar idénticamente es la definición de locura.
Google ADK, anunciado en Cloud Next el 22 de abril, incluye manejo de estado a nivel de sesión. Su capa de observabilidad — la más avanzada de las tres — sigue renderizando trazas por llamada. Ves la latencia individual de cada llamada MCP. No ves "esta cadena de cinco llamadas se completó el 77% de las veces esta semana".
Anthropic managed agents rastrean estatus de sesión, duración y costo. Útil para facturación. Inútil para saber si la cadena se completó.
La primitiva que falta
Un playbook de Google Cloud Community publicado el 9 de marzo documenta el patrón central que nadie ofrece nativamente: checkpointing a nivel de paso — guardar el output de cada paso para poder retomar a mitad de cadena. LangGraph lo hace. Todos los demás: te toca escribir tu propia capa de persistencia.
El playbook también cubre circuit breakers, fallback routing y otros patrones de microservicios adaptados para agentes. Referencias útiles, pero el hueco real está más arriba en el stack: SLOs a nivel de cadena. "Este flujo de trabajo debe completarse de extremo a extremo el 95% de las veces." Ninguna plataforma ofrece esta métrica. La construyes con telemetría custom, una base de datos de series temporales y tus propias reglas de alertas.
Todo esto es trabajo de ingeniería real encima de plataformas que ya te cobran — Anthropic a $0.08 por hora de sesión, por ejemplo.
Qué hacer el lunes a primera hora
Elige un framework con checkpointing nativo. Si estás empezando de cero, la persistencia de estado de LangGraph es la opción menos mala. Si ya tienes agentes corriendo, agrega guardado a nivel de paso en tus tres cadenas más críticas antes de conectar otro servidor MCP.
Instrumenta el éxito a nivel de cadena. No por herramienta — por flujo completo. Registra un solo booleano: ¿la cadena terminó? Agrégalo semanalmente. El número te va a doler, pero al menos vas a tener uno.
Mantén las cadenas cortas. Tres pasos, no diez. Cada paso adicional multiplica tu probabilidad de fallo.
La brecha real de infraestructura
La siguiente mejora significativa en el stack de agentes no es un modelo más inteligente ni una herramienta más rápida. Es el framework que trate la confiabilidad compuesta de cadenas como las bases de datos tratan las garantías transaccionales — como una primitiva de primera clase, no como un proyecto de hazlo-tú-mismo. El checkpointing de LangGraph insinúa ese futuro. El manejo de sesiones de Google ADK apunta en la misma dirección. Todos los demás te venden la resistencia de eslabones individuales y rezan para que nunca jales la cadena.





