Du hast deinen Agenten an Slack, Linear, GitHub und eine interne Postgres angeschlossen. Fünfzehn Tools, saubere JSON-Schemas, ein Prompt, der sagt „du bist ein hilfreicher Assistent". Bei Zwei-Schritt-Aufgaben läuft das wunderschön. Beim fünften Schritt überspringt er einen Filter, zitiert ein Feld falsch oder verbrennt 40k Tokens, weil er dieselben Schemas immer wieder neu liest. Willkommen an der Decke des klassischen Tool-Callings 😹.
Hier ist das Setup, das dir in den Marketing-Seiten niemand erklärt. Beim traditionellen Tool-Calling — das Muster, das jedes SDK bis Ende 2024/2025 ausgeliefert hat — kippt ein Agent (ein Programm, das ein großes Sprachmodell umschließt und ihm Tools gibt) das komplette JSON-Schema (eine maschinenlesbare Beschreibung der Tool-Inputs) bei jedem einzelnen Turn ins Kontextfenster (das Arbeitsgedächtnis des Modells). Fünfzehn Tools mit ordentlichen Typen? Das sind 5–10k Tokens, bevor das Modell überhaupt „hallo" sagt. Dann wählt das Modell ein Tool, füllt die Argumente, wartet auf das Ergebnis und macht's nochmal. Schleifen, Bedingungen, Datentransformationen? Fehlanzeige. Das Modell täuscht sie vor, indem es zehn einzelne Calls aneinanderkettet und hofft, sich noch an das zu erinnern, was es bei Call drei gesehen hat.
Die zwei Wochen, die den Default verschoben haben
Zwischen dem 14. und 15. April 2026 haben drei Anbieter dasselbe Muster ausgeliefert und das alte still und leise ins Rentenalter geschickt.
Am 15. April 2026 kündigte OpenAI die nächste Evolution des Agents SDK an, ausgeliefert als v0.14.0 „Sandbox Agents" (noch am selben Nachmittag per Hotfix zu v0.14.1 gemacht, laut GitHub Release Page). Die Headline-Features: Code Mode, Sandboxing, Sub-Agents, ein Long-Horizon-Harness und Provider-agnostischer Support für 100+ LLMs. TechCrunchs Bericht hat das Ganze als OpenAIs Aufholjagd gerahmt — zu einem Muster, das Cloudflare und HuggingFace seit sechs Monaten benchmarken.
Einen Tag früher, am 14. April 2026, öffnete Anthropic die Research Preview für Claude Code Routines — gespeicherte Claude-Code-Konfigurationen, die als persistente autonome Agenten in Anthropics Cloud laufen, ausgelöst durch Zeitplan, HTTP-Webhook oder GitHub-Event. Gleiche Form: Tools sind Code, den der Agent importiert, nicht JSON, das er wiederkäut.
Ebenfalls am 14. April veröffentlichte Cloudflare „Scaling MCP adoption" — die Enterprise-Referenzarchitektur, die die Zahlen peinlich gemacht hat. Ihr Benchmark: 4 interne MCP-Server mit 52 Tools anschließen. Klassisches Tool-Calling verbrennt ~9.400 Kontext-Tokens pro Turn. Code Mode via Portal: ~600 Tokens. Das sind 94% weniger, und — das ist der eigentliche Gewinn — die Kosten bleiben flach, wenn du mehr Server hinzufügst 🙀.
Was Code Mode tatsächlich macht
Statt Schemas in den Prompt zu stopfen, übergibt die Runtime dem Modell ein typisiertes Modul. Das Modell schreibt ein kurzes Programm. Die Sandbox führt es aus. Tools landen nie im Kontextfenster — nur ihre Signaturen, und oft nur die, die das Modell per search() angefordert hat.
from agents import Agent, CodeMode, Sandbox
agent = Agent(
model="gpt-5.1",
mode=CodeMode(runtime="python"),
sandbox=Sandbox(backend="e2b"), # oder docker, modal, runloop
tools=[slack, linear, github, pg], # schlichte typisierte Funktionen
)
agent.run(
"Finde jeden P0-Bug, der diese Woche in Linear geöffnet wurde, "
"gleiche gegen GitHub-PRs ab, poste eine Zusammenfassung in #triage."
)
Unter der Haube spuckt das Modell sowas hier aus:
bugs = linear.search(priority="P0", opened_after="2026-04-09")
prs = {b.id: github.find_pr(ref=b.id) for b in bugs}
unmatched = [b for b in bugs if not prs[b.id]]
slack.post("#triage", render(bugs, unmatched))
Das ist eine Schleife, ein Dict Comprehension, ein Filter und eine Bedingung — in einem Sandbox-Roundtrip. Die klassische Tool-Calling-Variante braucht 12+ Turns und garantiert Migräne.
Die Belege
HuggingFaces Framework smolagents zeigt das seit Monaten: CodeAgent braucht ~30% weniger Schritte als ToolCallingAgent auf Multi-Step-Benchmarks, und smolagents + GPT-4o saßen auf Platz 1 der GAIA-Validation (44,2%). Cloudflares April-Zahlen: ~32% weniger Tokens bei einfachen Aufgaben, ~81% bei komplexen Ketten, laut WorkOS-Analyse. Der kanonische Satz von Cloudflares Kenton Varda und Sunil Pai gilt noch immer: „LLMs sind besser darin, Code zu schreiben, der MCP aufruft, als MCP direkt aufzurufen."
Was es dich kostet
Umsonst gibt's das nicht 😾. Code Mode braucht eine echte Sandbox — Docker, E2B, Modal, Runloop, Daytona oder OpenAIs eingebauten Harness — weil du jetzt modell-geschriebenen Code auf deiner Infrastruktur laufen lässt. Sandbox weglassen? Dann bist du einen Prompt Injection von einer RCE entfernt. Die meisten Observability-Tools gehen von JSON-Traces aus und scheitern an opaken Code-Blobs. Dein Security-Modell verschiebt sich von „Argumente validieren" zu „beliebige Ausführung eindämmen" — anderer Review-Prozess, anderes Threat-Modell und oft auch anderes Team. Für Single-Shot-Aufgaben mit einem Tool — „hol das Wetter für Hamburg" — fügt Code Mode nur Latenz für nichts hinzu.
Was du am Montag machst
Wenn du im April 2026 einen Agenten auf der grünen Wiese baust, setze Code Mode ab Tag eins als Default. Nimm ein SDK, das Tools in einer gesandboxten Runtime ausführt, schreib deine Tools als schlichte typisierte Python- oder TypeScript-Funktionen und hör auf, JSON-Schemas von Hand zu basteln. Wenn du einen produktiven Agenten auf klassischem Tool-Calling hast und er läuft, migrier nicht in Panik — aber jedes Mal, wenn du Tool Nummer sechzehn hinzufügst, rechne die Tokens durch.
Das Urteil
Tool-Calling ist nicht tot für Single-Step-Calls 🐈. Aber für jeden Agenten, der mehr als zwei Aktionen verkettet, hat die Branche gerade — innerhalb der 48 Stunden zwischen dem 14. und 15. April 2026 — entschieden, dass die Muttersprache des Agenten Code ist, nicht JSON. Wenn du nicht hingeschaut hast, hat sich der Stack unter dir verschoben 😼.





