Terminaste de cablear tu primer agente de verdad el fin de semana pasado. Agenda reuniones por Google Calendar, crea tickets en Linear, le pica a tu réplica de lectura de Postgres y hasta escribe sus propios correos de seguimiento. Lo mostraste el lunes. Tu PM sonrió, asintió, y luego te hizo la única pregunta que no supiste responder: ¿cómo sabes que funciona?
No lo sabes. Nadie lo sabe. Todos los SDK de agentes importantes que salieron en abril de 2026 asumieron calladamente que ya tenías una estrategia de testing — cuando en la práctica la mayoría de los equipos tienen un canal de Slack llamado #agent-weirdness y un rezo.
Los comprobantes de dos semanas
El 8 de abril de 2026, Anthropic lanzó Managed Agents en beta pública — $0.08 por hora de sesión además del costo de tokens, con una pestaña nueva de Sessions en la Claude Console para traces, tool calls y costo. Siete días después, el 15 de abril, OpenAI actualizó su Agents SDK con un sandbox nativo (corre el código de tu agente en una VM aislada para que no te haga rm -rf a la laptop), uso de herramientas MCP (MCP = Model Context Protocol, un estándar universal tipo enchufe para herramientas de IA), configuración de memoria y un archivo portable de instrucciones AGENTS.md.
Entre los dos: un runtime, un sandbox, traces, un medidor de facturación. Entre los dos: cero eval harness offline nativo. Un eval harness es un test runner para LLMs — el equivalente a pytest para agentes, la cosa que reproduce escenarios fijos y te dice pasa o falla antes de que un cliente lo haga por ti 😹.
Qué necesita de verdad un test de agente
No un unit test. Un test de agente necesita replay determinista (mismo input, mismo trace), mocking de tool calls (tu test no debería mandarle un correo a nadie de verdad), rúbricas de LLM-as-judge (un segundo modelo calificándole la tarea al primero), trajectory scoring (¿dio diez pasos cuando con tres bastaba?) y fixtures de regresión que puedas correr cada vez que toques un prompt.
Nadie envía esto integrado. Lo pegas con cinta de cinco proveedores:
# Stack típico de testing de agentes en 2026 — eliges tres, los cambias cada mes
import promptfoo # regresiones YAML (ahora propiedad de OpenAI)
import braintrust # LLM-as-judge + CI gates ($)
from langsmith import Client # trajectory scoring para LangGraph
import phoenix as px # OpenTelemetry self-host
from deepeval import assert_test # métricas con forma de pytest
Cinco herramientas, cinco superficies de auth, cinco facturas, dos copias de cada trayectoria. Ningún formato de intercambio compartido. Nadie a quien llamarle cuando el proveedor cambia la API.
Los autores de los frameworks lo saben
LangChain soltó la parte incómoda en voz alta. En un post del 2 de abril, su equipo de Deep Agents detalló siete categorías de evaluación hechas a mano — file ops, uso de herramientas, retrieval, conversación, memoria, resumen, unit tests — todas corriendo por fuera vía pytest + GitHub Actions, nada horneado dentro del SDK. Seis días después dijeron que las evals son "la señal principal para impulsar la mejora iterativa" — una admisión educada de que el harness salió primero, los tests salen "pronto." 😾
La cuenta del testing atornillado
Los loops de LLM-as-judge componen el costo de tokens — ahora pagas por el agente y por su juez. Phoenix self-hosted te ahorra dinero pero te toca correr la infra. Proveedores gestionados como Braintrust te suman otra factura mensual. Y el 9 de marzo de 2026 OpenAI compró Promptfoo — uno de los dos CLIs open-source independientes ahora es propiedad de un vendor de modelos. Tu capa de testing neutral ya no es neutral.
Qué hacer antes del Google Cloud Next del 22 de abril
Elige una herramienta esta semana. ¿Solo? Promptfoo, todavía Apache 2.0 por ahora. ¿En equipo? Braintrust o LangSmith. ¿Paranoico / self-hosted? Arize Phoenix. Escribe diez fixtures de trayectoria basados en tareas reales de usuarios. Córrelos cada vez que cambies un prompt o un modelo.
Porque tu agente no tiene unit tests. El de tu competencia tampoco. Quien envíe la primitiva de evaluación opinionada dentro de un SDK se queda con el próximo moat — esa es la herramienta que los equipos van a seguir corriendo en 2028 🐈⬛.



