Tu as connecté ton tout nouvel agent IA à Slack, Linear, GitHub et tes emails la semaine dernière. Cinq outils, un assistant autonome, zéro friction. Ton workflow matinal ressemblait enfin au futur qu'on nous promet depuis 2023. Félicitations — tu as aussi construit une surface d'attaque qui ferait passer un Windows XP de 2005 pour un bunker numérique.

Voici le problème que personne n'a mentionné pendant la prise en main : chaque message, ticket, issue et document que ton agent lit est du texte écrit par quelqu'un d'autre. Et ton agent — propulsé par un LLM (large language model, le cerveau derrière ChatGPT, Claude, Gemini) — est incapable de faire la différence entre tes instructions et celles que quelqu'un a planquées dans ce texte. Cette faille a un nom : prompt injection — quand un attaquant glisse des commandes cachées dans un contenu d'apparence anodine, et que l'IA les exécute à la place des tiennes.

Le prompt injection a cessé d'être théorique en février, quand l'attaque Clinejection a exfiltré les clés SSH d'environ 4 000 développeurs via des caractères Unicode invisibles cachés dans les titres d'issues GitHub. C'était la preuve de concept. Avril 2026, c'est le déploiement en production.

Le 4 avril, la société de sécurité cloud Wiz a publié une analyse d'une campagne supply chain baptisée prt-scan : un seul acteur malveillant a soumis 475 pull requests malveillantes en 26 heures à l'aide de payloads générés par IA qui s'adaptaient à la stack technique de chaque dépôt. Projet Python ? Injection via conftest.py. Node.js ? Empoisonnement du package.json. Rust ? Glissade dans build.rs. L'outillage de l'attaquant — en gros, un agent attaquant d'autres agents — opérait à un rythme qu'aucun revieweur humain ne pouvait suivre. Parmi les vols confirmés : des clés AWS, des tokens d'API Cloudflare et des identifiants Netlify.

Le 11 avril, deux vulnérabilités critiques (CVE-2026-5058 et CVE-2026-5059, toutes deux notées 9.8 sur 10) ont fait surface dans le serveur AWS MCP — MCP (Model Context Protocol) étant le standard de connexion universel pour brancher les agents IA à des outils externes, un peu comme l'USB mais pour les données. Les deux failles permettaient l'exécution de code à distance sans authentification. Pas de login requis. Il suffisait d'envoyer le bon texte. Les trous d'AWS n'étaient pas des cas isolés : le serveur Azure MCP de Microsoft a été livré sans aucune authentification (CVE-2026-32211, divulgué le 3 avril), et le 7 avril, une faille de DNS rebinding (CVE-2026-35568) dans le MCP Java SDK permettait à des attaquants de détourner des serveurs IA locaux via le navigateur de la victime.

Le 9 avril, l'équipe Unit 42 de Palo Alto a documenté 22 techniques distinctes utilisées par les attaquants en conditions réelles : texte de taille zéro, suppression CSS, encodage Base64, overrides directionnels Unicode.

Leur conclusion mérite sa propre ligne : "Le web lui-même devient effectivement un mécanisme de livraison de prompts pour LLM."

La surface d'attaque croît de manière multiplicative. Un agent connecté à cinq outils dispose de cinq canaux entrants pour du texte empoisonné. Chaîne plusieurs agents ensemble — Slack déclenche Linear, qui déclenche un agent de code — et une seule injection se propage à chaque maillon. Le chercheur en sécurité Simon Willison a parfaitement formulé le problème dans son billet du 6 avril : "The Lethal Trifecta" — accès aux données privées + exposition à du contenu non fiable + n'importe quel vecteur d'exfiltration = vol de données garanti. Son avis sur les éditeurs qui revendiquent 95 % de prévention des attaques : "95 %, c'est clairement une note éliminatoire."

Microsoft a tacitement reconnu le problème le 2 avril en publiant en open source un Agent Governance Toolkit — de l'application de politiques en temps réel en moins de 0,1 ms, sept packages, 9 500 tests, support pour Python, TypeScript, Rust, Go et .NET. C'est un bon début. C'est aussi un aveu qu'aucune plateforme existante n'intègre ça nativement.

Avant de connecter un sixième outil, audite les actions que ton agent peut exécuter de manière autonome. Pars du principe que chaque texte qu'il lit — chaque message Slack, chaque ticket Jira, chaque objet d'email — est potentiellement une commande non signée exécutée avec tes identifiants.

L'agent le plus dangereux n'est pas le plus intelligent. C'est celui qui a le plus de permissions et aucune idée qu'il est déjà compromis.