Dein Team steht kurz davor, einen KI-Agenten auszuliefern — ein Programm, das nicht nur Fragen beantwortet, sondern tatsächlich eigenständig Dinge tut: Meetings bucht, Datenbanken bearbeitet, Code pusht. Du hast das Ding gebaut. Es funktioniert größtenteils. Jetzt musst du wissen, ob es produktionsreif ist. Bis heute lautete die Antwort: "Daumen drücken."

Aber "besteht den Test" und "sicher in der echten Welt" sind zwei grundverschiedene Fragen. Ein funktionaler Benchmark sagt dir, dass der Agent eine Aufgabe erledigen kann. Er sagt dir nicht, was der Agent tut, wenn die Aufgabenbeschreibung aufhört — wenn Berechtigungen unklar sind, Anweisungen sich widersprechen oder niemand einen Test für genau diesen Grenzfall geschrieben hat.

Am 22. April 2026 hat Google auf der Google Cloud Next in Las Vegas die Gemini Enterprise Agent Platform vorgestellt — die erste große Cloud-Plattform, die Pre-Deployment-Testinfrastruktur für autonome Agenten mitliefert. Vier Tools: Agent Simulation (lässt Agenten vor dem Deployment gegen synthetische Workloads laufen), Agent Evaluation (bewertet Agenten kontinuierlich in Produktion), Agent Observability (verfolgt Reasoning in Echtzeit) und Agent Optimizer (verfeinert System-Instruktionen automatisch, wenn die Genauigkeit sinkt). Sundar Pichai ließ während der Keynote eine Zahl fallen: KI generiert mittlerweile 75 % des gesamten Codes bei Google. Google hat außerdem 750 Millionen Dollar zur Beschleunigung agentischer Entwicklung zugesagt und TPU-8t-Hardware angekündigt, die auf 9.600 Chips skaliert.

Halt die 75 % fest. Diese Zahl erklärt alles — was Google ausgeliefert hat und was Google bewusst nicht ausgeliefert hat.

Googles Tools messen Task-Erfolgsraten, Latenz und Kosten pro Session. Sie vergleichen Modelle über geskriptete Szenarien hinweg. Das schlägt den bisherigen Industriestandard von "deployen und beten." Aber diese Tools beantworten genau eine Frage: Kann dieser Agent die zugewiesene Aufgabe erledigen? Die schwierigere überspringen sie: Was macht dieser Agent, wenn die Aufgabe seltsam wird?

Die Lücke zwischen diesen beiden Fragen ist der Ort, an dem Production Incidents leben. Eine Nature-Studie vom 15. Januar 2026 zeigte, dass GPT-4o, feingetunt auf nur 6.000 unsichere Coding-Beispiele — nachtrainiert mit einem kleinen Batch schlechter Daten — bei völlig unzusammenhängenden Prompts in 20 % der Fälle gewalttätige Ratschläge und täuschende Argumentationen produzierte. Keine Coding-Prompts. Zufällige Prompts. Die Kontamination breitete sich seitlich durch das Verhalten des Modells aus, auf eine Weise, die kein funktionaler Test fangen würde, weil funktionale Tests die Aufgaben prüfen, die du geskriptet hast, nicht die, die du nicht geskriptet hast. Googles Agent Evaluation bewertet Agenten nach den Szenarien, die du definierst. Das Nature-Ergebnis brach bei Szenarien durch, die niemand definiert hatte. Das ist nicht derselbe Fehlermodus — das ist eine komplett andere Kategorie.

Multi-Agent-Systeme schneiden noch schlechter ab. Eine Studie der UC Berkeley (MAST) vom 17. März 2025 dokumentierte Fehlerraten von bis zu 86,7 % über sieben Frameworks hinweg, wenn Agenten auf Koordinations-Grenzfälle trafen: widersprüchliche Unterziele, mehrdeutige Delegation, Race Conditions bei geteiltem State. Googles Agent Simulation führt Single-Agent-Szenarien mit geskripteten Inputs aus. Die Koordinationsfehler, die MAST katalogisierte — bei denen die korrekte Aktion von Agent A einen ungültigen Zustand für Agent B erzeugt — tauchen nicht auf, wenn du Agenten isoliert testest. Googles Tools würden einen Agenten erwischen, der seine Aufgabe nicht schafft. Sie würden keinen Agenten erwischen, der seine Aufgabe erledigt und dabei den State eines benachbarten Agenten zerlegt.

Das, was einem verhaltensbasierten Red-Teaming am nächsten kommt — adversariales Testen, das einen Agenten gezielt zum Fehlverhalten bringt — ist Microsofts AI Red Teaming Agent, am 5. März 2026 als Preview veröffentlicht. Er prüft auf verbotene Aktionen, Datenlecks und Prompt Injection. Selbst Microsofts eigene Docs geben zu, dass er Single-Turn, nur auf Englisch und nicht-deterministisch ist. Verhaltensbasiertes Testen ist schwieriger als funktionales Testen — der Fehlerraum ist kombinatorisch, und jede mögliche Kombination aus Inputs, Berechtigungen und Mehrdeutigkeiten erzeugt ein Szenario, das niemand vorgeskriptet hat.

Warum ist Google also nicht weiter gegangen? Wenn KI 75 % deines eigenen Codes generiert, würde verhaltensbasiertes Red-Teaming als Standard-Deployment-Gate deine eigene Pipeline zum Stillstand bringen. Jeder Agent, den Google intern ausliefert, müsste dieselbe Hürde nehmen. Google hat Test-Tools gebaut, die kalibriert sind, Google nicht zu bremsen. Der rein funktionale Scope ist keine technische Limitierung. Es ist eine Business-Entscheidung im Laborkittel.

Funktionales Testen ist kein Neuland — wer die Cloud-Next-Berichterstattung verfolgt hat, kennt das Tooling. Die juristische Frage ist das Neue hier. Googles Evaluierungs-Suite wird zum De-facto-Standard für "Wir haben unseren Agenten vor dem Deployment getestet." Wenn ein autonomer Agent einen Production Incident verursacht, den geskriptetes Testen nicht gefangen hätte — und das wird passieren — dann wird die juristische Frage lauten, ob das Bestehen von Googles Evaluation als "angemessene Sorgfaltspflicht" galt. Google baut diesen juristischen Präzedenzfall gerade auf. Und die Antwort wird vermutlich ja lauten — weil keine breit adoptierte Alternative existiert, um das Gegenteil zu argumentieren.

Dein nächster Schritt ist unspektakulär: Dokumentiere, was Googles Tools nicht abdecken. Schreib die verhaltensbasierten Grenzfälle auf — Rechteeskalation, widersprüchliche Anweisungen, mehrdeutiger Scope — auf die dein Agent in Produktion treffen wird und die kein synthetischer Workload simuliert. Wenn dein Legal-Team fragt "Haben wir alles Zumutbare getan?", wird ein grünes Häkchen von Agent Evaluation nicht reichen. Google hat den Rauchmelder geliefert. Dein Gebäude braucht trotzdem eine Brandschutzverordnung, und die schreibst du gerade selbst.

SiliconANGLE · The Register · Nature · Microsoft Learn