Conectaste tu flamante agente de IA a Slack, Linear, GitHub y al correo la semana pasada. Cinco herramientas, un asistente autónomo, cero fricción. Tu rutina matutina por fin se sentía como ese futuro que todos prometen desde 2023. Felicidades — también construiste una superficie de ataque que le daría envidia a una PC con Windows XP del 2005.
Aquí va el problema que nadie te mencionó durante el onboarding: cada mensaje, ticket, issue y documento que tu agente lee es texto escrito por otra persona. Y tu agente — impulsado por un LLM (large language model, el cerebro detrás de ChatGPT, Claude, Gemini) — no puede distinguir entre tus instrucciones y las instrucciones que alguien escondió dentro de ese texto. Esta falla tiene nombre: prompt injection — cuando un atacante incrusta comandos ocultos en contenido que parece normal, y la IA los ejecuta en lugar de los tuyos.
El prompt injection dejó de ser teórico en febrero, cuando el ataque Clinejection exfiltró llaves SSH de aproximadamente 4,000 desarrolladores mediante caracteres Unicode invisibles escondidos en títulos de issues de GitHub. Eso fue la prueba de concepto. Abril de 2026 es el despliegue en producción.
El 4 de abril, la firma de seguridad en la nube Wiz publicó un análisis de una campaña de cadena de suministro llamada prt-scan: un solo actor de amenaza envió 475 pull requests maliciosos en 26 horas usando payloads generados con IA que se adaptaban al stack tecnológico de cada repositorio. ¿Repo de Python? Inyectar vía conftest.py. ¿Node.js? Envenenar package.json. ¿Rust? Colarse en build.rs. Las herramientas del atacante — esencialmente un agente atacando a otros agentes — operaban a un ritmo que ningún revisor humano de código podría igualar. Entre lo robado confirmado: llaves de AWS, tokens de API de Cloudflare y credenciales de Netlify.
El 11 de abril, dos vulnerabilidades críticas (CVE-2026-5058 y CVE-2026-5059, ambas con puntuación de 9.8 sobre 10) aparecieron en el servidor MCP de AWS — MCP (Model Context Protocol) es el estándar de conexión universal para conectar agentes de IA con herramientas externas, como USB pero para datos. Ambas fallas permitían ejecución remota de código sin autenticación. Sin login. Solo manda el texto correcto. Los agujeros de AWS no fueron aislados: el servidor MCP de Azure de Microsoft se lanzó sin autenticación alguna (CVE-2026-32211, divulgado el 3 de abril), y el 7 de abril una falla de DNS rebinding (CVE-2026-35568) en el SDK de Java de MCP permitía a atacantes secuestrar servidores de IA locales a través del navegador de la víctima.
El 9 de abril, el equipo Unit 42 de Palo Alto documentó 22 técnicas distintas que los atacantes usan en la práctica: texto de tamaño cero, supresión CSS, codificación Base64, overrides direccionales de Unicode.
Su conclusión merece su propia línea: "La web en sí se convierte efectivamente en un mecanismo de entrega de prompts para LLMs."
La superficie de ataque escala de forma multiplicativa. Un agente conectado a cinco herramientas tiene cinco canales de entrada para texto envenenado. Encadena agentes — Slack dispara Linear, Linear dispara un agente de código — y una sola inyección se propaga en cascada por cada handoff. El investigador de seguridad Simon Willison lo enmarcó con precisión en su publicación del 6 de abril: "The Lethal Trifecta" — acceso a datos privados + exposición a contenido no confiable + cualquier vector de exfiltración = robo de datos garantizado. Su evaluación sobre los vendors que presumen prevenir el 95% de los ataques: "95% es definitivamente una calificación reprobatoria."
Microsoft reconoció tácitamente la brecha el 2 de abril al liberar como open source un Agent Governance Toolkit — enforcement de políticas en tiempo de ejecución en menos de 0.1ms, siete paquetes, 9,500 tests, soporte para Python, TypeScript, Rust, Go y .NET. Es un buen comienzo. También es una admisión de que ninguna plataforma existente trae esto integrado.
Antes de conectar la herramienta número seis, audita qué acciones puede tomar tu agente de forma autónoma. Asume que cada texto que lee — cada mensaje de Slack, cada ticket de Jira, cada asunto de correo — es un comando potencial sin firmar, ejecutándose con tus credenciales.
El agente más peligroso no es el más inteligente. Es el que tiene más permisos y no tiene idea de que ya está comprometido.





