Dein Agent waehlt das falsche Tool, weil du eine schlechte Beschreibung geschrieben hast - und keine Plattform kuemmert sich darum

Du hast deinen KI-Agenten an ein Dutzend Tools angeschlossen — Slack, GitHub, Jira, eine Datenbank — und ihm dabei zugeschaut, wie er selbstbewusst einen Jira-Kommentar abfeuert, wo eine Slack-Nachricht hingehört hätte. Und dir dafür auch noch eine Rechnung stellt. Ganz normaler Dienstag.

Dein Instinkt sagt: 'Nimm ein besseres Modell." Aber das Modell denkt nicht falsch. Es liest die einzige Information, die es über jedes Tool hat: ein description-Feld — ein paar Zeilen Plaintext — die irgendein Entwickler nachts um 2 während eines Hackathons hingekritzelt hat. Diese Beschreibung ist ein Prompt. Du wusstest nur nicht, dass du einen geschrieben hast.

Der April 2026 brachte einen Agentenplattform-Blitz. Am 8. April launchte Anthropic Claude Managed Agents — ein Cloud-Service für Infrastruktur, State Management und Tool-Orchestrierung für $0,08 pro Sitzungsstunde. Am 15. April aktualisierte OpenAI sein Agents SDK mit Sandbox-Umgebungen und Guardrails. Und auf der Cloud Next (22.–24. April) enthüllte Google die Gemini Enterprise Agent Platform mit dem Highlight-Feature: Agent Optimizer — ein Algorithmus, der Agent-Instruktionen automatisch optimiert, indem er reale Fehler clustert.

Drei Plattformen in drei Wochen, jede mit dem Versprechen, deine Agenten schlauer zu machen. Hier der Haken, den keiner erwähnt hat: Alle drei optimieren den System-Prompt. Keine davon fasst Tool-Beschreibungen an.

Laut Googles eigener Dokumentation arbeitet der Agent Optimizer ausschließlich auf System Instructions. Das description-Feld in jedem Tool-Schema — der Text, den das Modell tatsächlich liest, um zu entscheiden, welches Tool es aufruft — liegt im toten Winkel. Anthropics Managed Agents übernehmen die MCP-Beschreibungen, die du ihnen gibst. OpenAIs SDK reicht deine Function Schemas unverändert durch. Die Optimierung endet an der Haustür.

So funktioniert der Mechanismus: Wenn ein Agent Tools aufruft, erhält das LLM ein JSON-Schema für jedes registrierte Tool. Jedes Schema enthält ein description-Feld in Plaintext. Das Modell liest sie alle bei jedem Aufruf und wählt den besten Treffer. MCP, OpenAI Function Calling, Googles ADK — gleiches Muster. Das ist Prompt Engineering in Verkleidung, und keine Plattform validiert diese Prompts für dich.

Die Qualität dieser Prompts ist verheerend. Ein Benchmark vom März 2026 ergab, dass über 97 % der MCP-Server-Beschreibungen mindestens ein Qualitätsproblem aufweisen — unklare Zweckbeschreibungen, fehlende Randfälle, mehrdeutige Parameter-Semantik. Wir haben die Auswirkungen schon beschrieben: Tool-Wildwuchs killt die Genauigkeit, und Teams, die rigoros auditieren, sehen sofortige Verbesserungen. Aber die Ursache bleibt bestehen. Niemand reviewt Beschreibungstexte mit derselben Sorgfalt wie Code.

Dabei fressen diese Beschreibungen Tokens, ob das Tool aufgerufen wird oder nicht. Allein der GitHub MCP Server (93 Tools) injiziert ~55.000 Tokens nur für Schemas. Kombiniere GitHub, Slack und Sentry: 143.000 Tokens. Das sind 72 % eines 200K-Kontextfensters, aufgebraucht bevor der Agent irgendetwas Nützliches tut. Bei 100 Anfragen pro Tag sind das 510 Dollar im Monat an reinem Schema-Overhead. Du zahlst nicht für Intelligenz. Du zahlst dafür, dass das Modell bei jedem Aufruf schlechte Dokumentation liest.

Und keine Registry löst das. Laut TrueFoundrys Analyse vom April 2026 hat die offizielle MCP Registry 'keine eingebaute Kuratierung, Bewertungen oder Governance-Features." Smithery bietet keine Zuverlässigkeitsbewertung. MCP Market liefert 'keine Garantie für Qualität oder Sicherheit." Über 10.000 MCP-Server in freier Wildbahn, 97 Millionen monatliche SDK-Downloads — und kein einziger Marktplatz bewertet, ob die Beschreibung eines Tools tatsächlich zu dem passt, was das Tool macht.

Google, Anthropic und OpenAI haben jeweils Agentenplattformen ausgeliefert, die davon ausgehen, dass die Tool-Ebene das Problem von jemand anderem ist. Google optimiert sogar deinen System-Prompt für dich — aber der System-Prompt ist nicht der Ort, an dem Tool-Auswahl passiert. Das description-Feld ist es. Und im Moment ist dieses Feld die nächtliche Hackathon-Prosa eines Entwicklers, copy-pasted über tausend MCP-Forks, gelesen von jedem Modell bei jedem Aufruf und reviewt von absolut niemandem.

Also: Bevor du dein Modell upgradest, deinen Anbieter wechselst oder deine 51. Integration anschließt — auditiere die Beschreibungen, die du bereits auslieferst. Es sind Prompts, von denen du nicht wusstest, dass du sie geschrieben hast, und sie steuern jede einzelne Tool-Entscheidung deines Agenten.

Das nächste Differenzierungsmerkmal im Agent-Tool-Ökosystem wird nicht sein, wer die meisten Integrationen hat. Sondern wer sie ordentlich beschriftet. Die erste Registry, die Beschreibungsqualität durchsetzt, wird das npm-mit-TypeScript der Agentenwelt — und diese Registry existiert noch nicht.

Dein Agent waehlt das falsche Tool, weil du eine schlechte Beschreibung geschrieben hast - und keine Plattform kuemmert sich darum

Keep reading

Dein erster MCP-Server in Python: In 40 Zeilen vom Copy-Paste-Sklaven zur KI, die deine Daten sieht

Die MCP-Roadmap 2026 hat vier Prioritaeten. Error Handling gehoert nicht dazu

MCP Tool Overload: Jeder Server, den du anschliesst, macht deinen Agent duemmer

Drei Agent-Plattformen im April gelauncht. Keine liefert einen Deploy-Button.