Anthropic hat Managed Agents gelauncht, OpenAI kassiert für jeden Token mit Plattformgebühren obendrauf, und Google rechnet pro vCPU-Stunde ab. Wir haben das Event und den Abrechnungs-Zoo gestern beleuchtet. Aber alle — mich eingeschlossen — haben zu lange auf die Orchestrierungskosten gestarrt. Die eigentliche Zahl versteckt sich eine Schicht tiefer.

Die Orchestrierungskosten — $0,08/Session-Stunde bei Anthropic, ~$0,09/vCPU-Stunde bei Google — sind Grundrauschen. Ein paar Cent pro Stunde Babysitting. Die Zahl, bei der dein CFO nachts wach liegen sollte, ist der Token-Preis, denn dort klafft die 10-fache Lücke.

Die Rechnung, die keiner zuerst aufgemacht hat

So viel kosten die zugrundeliegenden Modelle pro Million Input-Tokens:

  • Gemini 2.5 Flash: $0,30
  • GPT-5: $1,25
  • Claude Sonnet 4.5: $3,00

Das ist kein Rundungsfehler. Googles günstigstes Modell kostet ein Zehntel von Anthropics Arbeitstier bei der reinen Inferenz. Ein Agent, der eine Million Tokens durchkaut — grob 750.000 Wörter — verbraucht $0,30 auf Flash versus $3,00 auf Claude. Multiplizier das mit Tausenden täglicher Sessions, und die Orchestrierungsgebühren werden zur Fußnote in einer deutlich hässlicheren Tabelle.

Das ist das echte Schlachtfeld. Nicht wer was für die Sandbox verlangt. Sondern wer was fürs Denken verlangt.

Googles Android-Playbook, neu aufgelegt

Enterprise-Analyst Kai Waehner hat es am 6. April auf den Punkt gebracht: Google hat bereits 11 Millionen Cloud-verbundene Organisationen, die monatlich ihre Kreditkarte zücken. Die müssen bei Agent-Orchestrierung keine Marge machen. Die brauchen nur, dass Agents mehr Rechenleistung auf Infrastruktur verbrauchen, für die Kunden eh schon zahlen.

Das ist Android-Ökonomie, angewandt auf KI. Verschenk die Runtime zum Selbstkostenpreis, mach sie preislich unwiderstehlich und monetarisiere das Ökosystem, das Kunden drumherum aufbauen. Das Free Tier der Vertex AI Agent Engine deckt ~50 Stunden Compute pro Monat ab — gerade genug, um deine Pipelines abhängig zu machen von Googles Session Management ($0,25 pro 1.000 Events), Googles Memory Banks, Googles RAG Engine.

Waehner nochmal: "Wer Gemini wählt, wählt Google Cloud als Inferenz-Schicht, Google Workspace als Produktivitätsoberfläche und Vertex AI als Entwicklungsplattform."

Das ist keine Preisentscheidung. Das ist eine Aufnahmezeremonie.

Der Teil, in dem "billig" richtig teuer wird

Der 10-fache Token-Rabatt kommt im Paket mit Googles gesamtem Stack. Deine Agents werden verdrahtet mit Vertex Session Management, Googles Document Retrieval, Googles Orchestrierungsschicht. Später zu Anthropic oder OpenAI zu migrieren heißt: alles von Grund auf neu bauen — Datenpipelines, Memory Stores, Retrieval-Logik, das Gesamtpaket.

Anthropic spielt die Gegenkarte. Claude ist verfügbar über die eigene API, AWS Bedrock und Googles eigenes Vertex AI. Höherer Token-Preis, aber du kaufst dir den Notausgang mit. OpenAI sitzt irgendwo in der Mitte, sichert sich über Azure ab und baut gleichzeitig die eigene Plattform-Gravitation auf.

Die billigsten Tokens kommen mit der klebrigsten Infrastruktur. War schon immer so, wird immer so bleiben.

Was das für dich bedeutet

Wenn du diesen Monat eine Agent-Plattform auswählst, hör auf, Orchestrierungsgebühren zu vergleichen. Die Token-Kostenlücke zwischen den Anbietern ist 5-10x breiter als die Runtime-Kostenlücke. Rechne die gesamten Inferenzkosten bei deinem geplanten Volumen durch und frag dich dann, was du in zwei Jahren zahlen würdest, um den Anbieter zu wechseln.

Der KI-Agent-Krieg dreht sich nicht mehr darum, wer das klügste Modell baut. Es geht darum, wer bereits deinen Cloud-Vertrag hält — und wer "kostenlos" so gut verkaufen kann, bis die Wechselkosten zuschlagen. Google hält mehr dieser Verträge als jeder andere, und sie haben gerade ihre Agent-Runtime bepreist wie jemand, der das ganz genau weiß.