Du hast letztes Wochenende deinen ersten echten Agent fertig verdrahtet. Er bucht Meetings über Google Calendar, legt Linear-Tickets an, stochert in deiner Postgres-Read-Replica herum und schreibt sogar seine eigenen Follow-up-E-Mails. Am Montag hast du ihn demonstriert. Deine PM hat gelächelt, genickt und dann die eine Frage gestellt, die du nicht beantworten konntest: Woher weißt du, dass er funktioniert?

Weißt du nicht. Niemand weiß es. Jedes große Agent-SDK, das im April 2026 ausgeliefert wurde, hat stillschweigend angenommen, dass du bereits eine Teststrategie hast — in der Praxis haben die meisten Teams aber nur einen Slack-Kanal namens #agent-weirdness und ein Stoßgebet.

Die Belege der letzten zwei Wochen

Am 8. April 2026 hat Anthropic Managed Agents in die öffentliche Beta geschickt — 0,08 $ pro Session-Stunde obendrauf auf die Token-Kosten, mit einem frischen Sessions-Tab in der Claude Console für Traces, Tool-Calls und Kosten. Sieben Tage später, am 15. April, hat OpenAI sein Agents SDK aktualisiert — mit nativer Sandbox (führt den Code deines Agents in einer isolierten VM aus, damit er nicht rm -rf auf deinem Laptop machen kann), MCP-Tool-Use (MCP = Model Context Protocol, ein universeller Stecker-Standard für KI-Tools), Memory-Config und einer portablen AGENTS.md-Instruktionsdatei.

Zwischen beiden: eine Runtime, eine Sandbox, Traces, ein Abrechnungszähler. Zwischen beiden: null natives Offline-Eval-Harness. Ein Eval-Harness ist ein Test-Runner für LLMs — das Agent-Äquivalent zu pytest, das Ding, das fixe Szenarien abspielt und dir pass oder fail sagt, bevor ein Kunde das für dich macht 😹.

Was ein Agent-Test wirklich braucht

Keinen Unit-Test. Ein Agent-Test braucht deterministisches Replay (gleicher Input, gleicher Trace), Tool-Call-Mocking (dein Test sollte niemandem tatsächlich eine E-Mail schicken), LLM-as-Judge-Rubriken (ein zweites Modell benotet die Hausaufgaben des ersten), Trajectory-Scoring (hat er zehn Schritte gemacht, wo drei gereicht hätten?) und Regressionsfixtures, die du nach jedem Prompt-Tweak erneut laufen lassen kannst.

Niemand liefert das. Du klebst es aus fünf Anbietern zusammen:

# Typischer Agent-Test-Stack 2026 — such dir drei aus, tausch monatlich
import promptfoo          # YAML-Regressionen (gehört jetzt OpenAI)
import braintrust         # LLM-as-Judge + CI-Gates ($)
from langsmith import Client  # Trajectory-Scoring für LangGraph
import phoenix as px      # OpenTelemetry Self-Host
from deepeval import assert_test  # pytest-förmige Metriken

Fünf Tools, fünf Auth-Flächen, fünf Rechnungen, zwei Kopien jeder Trajectory. Kein gemeinsames Austauschformat. Niemand, den du anrufen kannst, wenn der Vendor die API ändert.

Die Framework-Autoren wissen es

LangChain hat den stillen Teil laut ausgesprochen. In einem Post vom 2. April hat ihr Deep-Agents-Team sieben handgerollte Eval-Kategorien aufgedröselt — File-Ops, Tool-Use, Retrieval, Conversation, Memory, Summarization, Unit-Tests — alle extern über pytest + GitHub Actions ausgeführt, nicht ins SDK eingebacken. Sechs Tage später nannten sie Evals „das primäre Signal, um iterative Verbesserungen voranzutreiben“ — ein höfliches Eingeständnis, dass das Harness zuerst ausgeliefert wurde und die Tests „bald“. 😾

Die Rechnung für angeflanschtes Testing

LLM-as-Judge-Loops potenzieren die Token-Kosten — du zahlst jetzt für den Agent und seinen Prüfer. Selbst gehostetes Phoenix spart Geld, aber du betreibst die Infra. Managed Vendors wie Braintrust packen noch eine Monatsrechnung obendrauf. Und am 9. März 2026 hat OpenAI Promptfoo übernommen — eines der zwei unabhängigen Open-Source-CLIs gehört jetzt einem Modell-Vendor. Dein neutraler Test-Layer ist nicht mehr neutral.

Was du vor der Google Cloud Next am 22. April tun solltest

Wähl diese Woche ein Tool. Solo? Promptfoo, vorerst noch Apache 2.0. Team? Braintrust oder LangSmith. Paranoid / selbst gehostet? Arize Phoenix. Schreib zehn Trajectory-Fixtures aus echten User-Tasks. Lass sie bei jedem Prompt- oder Modellwechsel laufen.

Weil dein Agent keine Unit-Tests hat. Der deines Konkurrenten auch nicht. Wer das meinungsstarke Eval-Primitiv innerhalb eines SDKs ausliefert, besitzt den nächsten Burggraben — das ist das Tool, das Teams auch 2028 noch laufen lassen 🐈‍⬛.