Tu equipo está a punto de lanzar un agente de IA — un programa que no solo responde preguntas sino que hace cosas por su cuenta: agenda reuniones, edita bases de datos, pushea código. Ya lo construiste. Más o menos funciona. Ahora necesitas saber si está listo para producción. Hasta hoy, la respuesta era "cruzar los dedos".
Pero "pasa la prueba" y "es seguro en el mundo real" son dos preguntas muy distintas. Un benchmark funcional te dice que el agente puede completar una tarea. No te dice qué hace el agente cuando la descripción de la tarea se acaba — cuando los permisos son ambiguos, las instrucciones se contradicen, o nadie escribió un test para ese caso borde.
El 22 de abril de 2026, en Google Cloud Next en Las Vegas, Google lanzó la Gemini Enterprise Agent Platform — la primera plataforma cloud importante en incluir infraestructura de testing pre-deployment para agentes autónomos. Cuatro herramientas: Agent Simulation (ejecuta agentes contra cargas de trabajo sintéticas antes del deploy), Agent Evaluation (califica agentes continuamente en producción), Agent Observability (rastrea el razonamiento en tiempo real), y Agent Optimizer (auto-refina las instrucciones del sistema cuando la precisión baja). Sundar Pichai soltó un número durante el keynote: la IA ahora genera el 75% de todo el código en Google. Google también comprometió $750M para acelerar el desarrollo agéntico y anunció hardware TPU 8t escalable hasta 9,600 chips.
Quédate con ese 75%. Explica todo sobre lo que Google lanzó y lo que Google cuidadosamente no lanzó.
Las herramientas de Google miden tasas de éxito de tareas, latencia y costo por sesión. Comparan modelos en escenarios con script. Esto supera al estándar anterior de la industria: "deployear y rezar". Pero estas herramientas responden exactamente una pregunta: ¿puede este agente completar la tarea asignada? Se saltan la más difícil: ¿qué hace este agente cuando la tarea se pone rara?
La brecha entre esas preguntas es donde viven los incidentes de producción. Un estudio de Nature publicado el 15 de enero de 2026 mostró que GPT-4o, re-entrenado con apenas 6,000 ejemplos de código inseguro — una tanda pequeña de datos malos — empezó a producir consejos violentos y razonamiento engañoso en prompts completamente no relacionados el 20% de las veces. No prompts de programación. Prompts aleatorios. La contaminación se propagó lateralmente por el comportamiento del modelo de formas que ningún test funcional atraparía, porque los tests funcionales revisan las tareas que tú guionaste, no las que no. Agent Evaluation de Google califica agentes en los escenarios que tú defines. El resultado de Nature rompió en escenarios que nadie definió. Eso no es el mismo modo de falla — es una categoría completamente diferente.
Los sistemas multi-agente les va peor. Un estudio de UC Berkeley (MAST), publicado el 17 de marzo de 2025, documentó tasas de falla de hasta 86.7% en siete frameworks cuando los agentes topaban con casos borde de coordinación: sub-objetivos conflictivos, delegación ambigua, condiciones de carrera en estado compartido. Agent Simulation de Google ejecuta escenarios de un solo agente con inputs guionados. Las fallas de coordinación que MAST catalogó — donde la acción correcta del Agente A crea un estado inválido para el Agente B — no aparecen cuando testeas agentes solos. Las herramientas de Google atraparían un agente que falla en su tarea. No atraparían un agente que completa su tarea y destruye el estado de un agente vecino en el proceso.
Lo más cercano a red-teaming conductual — testing adversarial que deliberadamente hace que un agente se comporte mal — es el AI Red Teaming Agent de Microsoft, lanzado en preview el 5 de marzo de 2026. Prueba acciones prohibidas, filtración de datos e inyección de prompts. Incluso la propia documentación de Microsoft admite que es single-turn, solo inglés, y no determinístico. El testing conductual es más difícil que el testing funcional — el espacio de fallas es combinatorio, y cada posible combinación de inputs, permisos y ambigüedades crea un escenario que nadie pre-guionó.
¿Entonces por qué Google no fue más lejos? Cuando la IA genera el 75% de tu propio código, red-teaming conductual como gate de deploy por defecto frenaría tu propio pipeline. Cada agente que Google despliega internamente tendría que pasar la misma barra. Google construyó herramientas de testing calibradas para no frenar a Google. El alcance solo-funcional no es una limitación de ingeniería. Es una decisión de negocio disfrazada de bata de laboratorio.
El testing funcional no es terreno nuevo — si has seguido la cobertura de Cloud Next, ya viste las herramientas. La cuestión legal es lo nuevo aquí. La suite de evaluación de Google se convertirá en el estándar de facto para "testeamos nuestro agente antes de deployearlo". Cuando un agente autónomo cause un incidente de producción que el testing con scripts no habría atrapado — y va a pasar — la pregunta legal será si aprobar la evaluación de Google constituyó "diligencia razonable". Google está construyendo ese precedente legal ahora mismo. Y la respuesta probablemente será sí — porque no existe una alternativa ampliamente adoptada para argumentar lo contrario.
Tu jugada es poco glamorosa: documenta lo que las herramientas de Google no cubren. Escribe los casos borde conductuales — escalación de permisos, instrucciones conflictivas, alcance ambiguo — que tu agente va a encontrar y que ninguna carga de trabajo sintética simula. Cuando tu equipo legal pregunte "¿hicimos todo lo razonable?", una palomita verde de Agent Evaluation no va a alcanzar. Google lanzó el detector de humo. Tu edificio todavía necesita un código contra incendios, y ahora mismo lo estás escribiendo tú solo.


