Jeder Text, den dein KI-Agent liest, ist ein unsignierter Befehl

Letzte Woche hast du deinen glänzenden neuen KI-Agenten an Slack, Linear, GitHub und E-Mail angeschlossen. Fünf Tools, ein autonomer Assistent, null Reibung. Dein morgendlicher Workflow fühlte sich endlich nach der Zukunft an, die uns seit 2023 versprochen wird. Herzlichen Glückwunsch — du hast nebenbei eine Angriffsfläche gebaut, gegen die eine Windows-XP-Kiste von 2005 wie Fort Knox aussieht.

Hier kommt das Problem, das beim Onboarding niemand erwähnt hat: Jede Nachricht, jedes Ticket, jedes Issue und jedes Dokument, das dein Agent liest, ist Text, den jemand anderes geschrieben hat. Und dein Agent — angetrieben von einem LLM (Large Language Model, das Hirn hinter ChatGPT, Claude, Gemini) — kann nicht zwischen deinen Anweisungen und Anweisungen unterscheiden, die jemand in diesem Text versteckt hat. Diese Schwachstelle hat einen Namen: Prompt Injection — wenn ein Angreifer versteckte Befehle in harmlos wirkendem Content einbettet und die KI diesen statt deinen Anweisungen folgt.

Prompt Injection hat im Februar aufgehört, theoretisch zu sein, als der Clinejection-Angriff über unsichtbare Unicode-Zeichen in GitHub-Issue-Titeln SSH-Schlüssel von rund 4.000 Entwicklern exfiltrierte. Das war der Proof of Concept. April 2026 ist das Production Deployment.

Am 4. April veröffentlichte die Cloud-Security-Firma Wiz eine Analyse einer Supply-Chain-Kampagne namens prt-scan: Ein einzelner Bedrohungsakteur reichte 475 bösartige Pull Requests in 26 Stunden ein — mit KI-generierten Payloads, die sich automatisch an den Tech-Stack jedes Repositories anpassten. Python-Repo? Injection über conftest.py. Node.js? package.json vergiften. Rust? In build.rs einschleusen. Das Tooling des Angreifers — im Grunde ein Agent, der andere Agenten attackiert — arbeitete in einem Tempo, dem kein menschlicher Code-Reviewer gewachsen war. Bestätigter Diebstahl umfasste AWS-Keys, Cloudflare-API-Tokens und Netlify-Credentials.

Am 11. April tauchten zwei kritische Schwachstellen auf (CVE-2026-5058 und CVE-2026-5059, beide mit 9,8 von 10 bewertet) im AWS MCP Server — MCP (Model Context Protocol) ist dabei der universelle Steckstandard, um KI-Agenten mit externen Tools zu verbinden, wie USB, nur für Daten. Beide Schwachstellen ermöglichten unauthentifizierte Remote Code Execution. Kein Login nötig. Einfach den richtigen Text schicken. Die AWS-Lücken waren kein Einzelfall: Microsofts Azure MCP Server wurde komplett ohne Authentifizierung ausgeliefert (CVE-2026-32211, offengelegt am 3. April), und am 7. April ermöglichte ein DNS-Rebinding-Fehler (CVE-2026-35568) im MCP Java SDK das Kapern lokal laufender KI-Server über den Browser des Opfers.

Am 9. April dokumentierte das Unit 42-Team von Palo Alto 22 verschiedene Techniken, die Angreifer in freier Wildbahn einsetzen: Text mit Größe Null, CSS-Unterdrückung, Base64-Kodierung, Unicode-Directional-Overrides.

Ihre Schlussfolgerung verdient eine eigene Zeile: "Das Web selbst wird effektiv zu einem LLM-Prompt-Delivery-Mechanismus."

Die Angriffsfläche skaliert multiplikativ. Ein Agent mit fünf Tools hat fünf Eingangskanäle für vergifteten Text. Verkette Agenten miteinander — Slack triggert Linear triggert einen Coding-Agenten — und eine einzige Injection kaskadiert durch jede Übergabe. Sicherheitsforscher Simon Willison brachte es in seinem Post vom 6. April auf den Punkt: "The Lethal Trifecta" — Zugriff auf private Daten + Kontakt mit nicht vertrauenswürdigen Inhalten + irgendein Exfiltrations-Vektor = garantierter Datendiebstahl. Seine Einschätzung zu Anbietern, die 95 % Angriffsabwehr versprechen: "95 % ist eine glatt durchgefallene Note."

Microsoft hat die Lücke am 2. April stillschweigend eingestanden, indem sie ein Agent Governance Toolkit als Open Source veröffentlichten — Runtime-Policy-Enforcement in unter 0,1 ms, sieben Pakete, 9.500 Tests, Unterstützung für Python, TypeScript, Rust, Go und .NET. Ein solider Anfang. Aber auch ein Eingeständnis, dass keine bestehende Plattform das eingebaut hat.

Bevor du Tool Nummer sechs anschließt: Prüfe, welche Aktionen dein Agent autonom ausführen kann. Geh davon aus, dass jeder Textinput, den er liest — jede Slack-Nachricht, jedes Jira-Ticket, jede E-Mail-Betreffzeile — ein potenzieller unsignierter Befehl ist, der mit deinen Credentials läuft.

Der gefährlichste Agent ist nicht der intelligenteste. Es ist der mit den meisten Berechtigungen, der keine Ahnung hat, dass er bereits kompromittiert ist.

Jeder Text, den dein KI-Agent liest, ist ein unsignierter Befehl

Keep reading

Du hast die Tool Calls deines Agents abgesichert. Die Antworten hat niemand abgesichert.

MCP-Supply-Chain-Krise: npms Albtraum, nur zehnmal schneller

Tool-Calling ist tot. Agenten schreiben jetzt Code.

MCPs fehlende Hälfte: Warum Auth-Broker zum unsexy Hot-Layer des April wurden