Hiciste todo bien. Revisaste tus servidores MCP (Model Context Protocol — un estándar universal de conexión para herramientas de IA, como USB pero para datos), bloqueaste permisos, fijaste versiones de esquemas para que tu agente de IA — un programa que usa herramientas por su cuenta — solo llame lo que tú apruebas. Tu infraestructura de agentes se siente lista para producción. Duermes tranquilo.
No deberías.
Porque cada herramienta que tu agente llama envía una respuesta de vuelta. Y a fecha de 25 de abril de 2026, casi nadie en la industria valida qué hay dentro de esa respuesta antes de que aterrice en la ventana de contexto del agente — la memoria de trabajo donde el modelo de IA no puede distinguir instrucciones confiables de la basura que una herramienta acaba de escupir.
Tres plataformas, el mismo punto ciego
Desde principios de abril, las tres empresas de IA más grandes lanzaron funciones de seguridad para agentes — todas protegiendo la puerta equivocada.
El 8 de abril, Anthropic lanzó Managed Agents con permisos delimitados y almacenamiento de credenciales. Controla qué herramientas puede llamar el agente. ¿Qué responden esas herramientas? No es su problema.
El 16 de abril, OpenAI actualizó su Agents SDK con trazado automático — un sistema de logging que registra cada llamada a herramientas, handoff y evento de guardrail. Observa las respuestas. No las sanitiza. Es como instalar una cámara de seguridad que ve a alguien entrar con un cuchillo y lo anota en una libreta.
El 22 de abril, Google lanzó Agent Gateway en Cloud Next con Model Armor, que sí sanitiza tanto las llamadas a herramientas como las respuestas — filtrando inyección de prompts, URLs maliciosas y fuga de datos. Google, hay que reconocerlo, es la única plataforma grande que protege explícitamente el lado de las respuestas. Está en preview.
Por qué importa: la puerta está abierta de par en par
La especificación de MCP define inputSchema — un formato estricto para lo que envías a una herramienta. No existe outputSchema. Las respuestas de herramientas son texto arbitrario o JSON que fluye sin filtro hacia el razonamiento del modelo. La especificación literalmente no tiene un campo para "validar lo que regresa".
Esto crea tres vectores de ataque que deberían quitarte el sueño:
Inyección indirecta de prompt — una herramienta devuelve contenido con instrucciones ocultas integradas. El reporte PipeLab State of MCP Security 2026 (publicado en abril de 2026) documenta un caso real: un atacante creó un issue malicioso en GitHub de modo que cuando un servidor MCP lo obtenía, la respuesta instruía al agente a exfiltrar contenido de repositorios privados. "Las descripciones de las herramientas estaban limpias. El envenenamiento estaba en los datos que la herramienta devolvía."
Inundación de contexto — una herramienta devuelve tanta información que ahoga la memoria de trabajo del agente, empujando instrucciones críticas fuera de la ventana de contexto.
Cadenas de exfiltración de datos — una respuesta envenenada le dice al agente que reenvíe contexto sensible a otra herramienta. El paper de investigación Log-To-Leak (publicado en marzo de 2026) demostró esto en GPT-5, Claude Sonnet 4 y otros — logrando una tasa de éxito del 100% en GPT-5 conectado a un servidor MCP de PayPal, con 94.6% de precisión en la fuga de datos.
Mientras tanto, el 16 de abril, OX Security reveló 11 CVEs que afectan aproximadamente 200,000 instancias de servidores MCP. La respuesta oficial de Anthropic: la sanitización es "responsabilidad del desarrollador". Incluso el OWASP MCP Top 10 (publicado en abril de 2026) — el primer intento de la industria por crear un marco de seguridad para MCP — no tiene una categoría dedicada para respuestas de herramientas no validadas. La brecha está tan normalizada que la gente que escribe los estándares de seguridad ni siquiera le ha puesto nombre.
El costo de arreglarlo
Agregar validación de respuestas rompe la simplicidad que hizo exitoso a MCP en primer lugar. Las herramientas necesitarían esquemas de salida. Los agentes necesitarían una capa de sanitización — algo como el Agent Governance Toolkit de Microsoft (liberado como open source el 2 de abril), que incluye un gateway de seguridad MCP con inspección de respuestas. Cada llamada gana overhead de parseo. La experiencia de "solo conecta herramientas" muere.
Pero la alternativa es peor.
Qué significa esto para ti
Hasta que la validación del lado de las respuestas se implemente en todas partes, cada servidor MCP que conectes es un tubo sin filtro directo al cerebro de tu agente. Todo el presupuesto de seguridad que gastaste en controles de entrada protege el extremo equivocado de la llamada. Si estás corriendo agentes en producción hoy, necesitas o el Model Armor de Google (preview), el AGT de Microsoft, o tu propio middleware de sanitización de respuestas. "Confía en la herramienta" no es una política de seguridad.
Blinaste la puerta principal. La puerta trasera no tiene cerradura. Ni siquiera tiene puerta.
El próximo incidente grave de seguridad en agentes no vendrá de una llamada maliciosa a una herramienta. Vendrá de la respuesta de esa herramienta.




