Du hast letzten Monat OpenAIs Preiskalkulator benutzt. Input-Tokens — Wort-Häppchen, die die KI liest — rein, Output-Tokens raus, simple Multiplikation. Deine Budget-Tabelle sah sauber aus. Verantwortungsbewusst sogar.

Dann kam deine April-Rechnung: 4x über dem Schätzwert. Du hast deine Prompts nicht geändert. Keine Workflows hinzugefügt. Kein höheres Volumen. Was also ist passiert?

Der unsichtbare Zähler begann zu laufen

Am 15.–16. April hat OpenAI zwei große Updates ausgeliefert: das Agents SDK v0.14 mit modell-nativer Orchestrierung und den autonomen Computer-Use-Modus von Codex. Beide nutzen standardmäßig GPT-5.4 — ein Reasoning-Modell. Anders als klassische Modelle, die einfach antworten, erzeugen Reasoning-Modelle "Thinking Tokens" — interne Berechnungen, bei denen die KI mit sich selbst debattiert, bevor sie antwortet. Du siehst diese Tokens nie im Output. Aber sie landen auf deiner Rechnung als Output-Tokens, zu Output-Token-Preisen.

Das Modell entscheidet autonom, wie viel es denkt — basierend auf der wahrgenommenen Problemkomplexität. Eine triviale Frage verbrennt vielleicht 200 Thinking Tokens. Eine komplexe — 10.000. Dieselbe Frage an verschiedenen Tagen? Irgendwo zwischen 2x und 9,7x Varianz, laut einem Preprint vom März 2026 von Stanford, Berkeley, CMU und Microsoft.

Die Rechnung wird richtig hässlich

Bei einem mehrstufigen Agent-Run — bei dem die KI dutzende sequenzielle Aktionen ausführt — potenziert sich diese Varianz. Jeder Schritt ist eine frische Reasoning-Zuweisung, die du weder vorhersagen noch kontrollieren kannst. Ein Preprint mit 11.872 Anfragen über 8 Modelle hinweg ergab, dass Thinking Tokens über 80% der gesamten Output-Kosten ausmachen, und in 21,8% der Modellvergleiche kostete das vermeintlich günstigere Modell tatsächlich mehr — mit einer Umkehrungsmagnitude von 28x. Du liest richtig: Die Budget-Option kann 28-mal mehr kosten als die Premium-Variante. Preisseiten sind an diesem Punkt reine Dekoration.

Reale Daten bestätigen es: Die Entwicklerplattform GrisLabs hat 1.127 Agent-Runs im März 2026 getrackt und fand Mediankosten von $1,22, aber ein 95. Perzentil von $22,14 — ein 18x-Verhältnis zwischen typischen und teuren Runs für denselben Job. Selber Prompt, selbe Pipeline, 18-facher Spread. Dein Controller wird diese Varianzanalyse lieben.

Es wird schlimmer: Der Aus-Schalter war Attrappe

Am 2. April entdeckten Entwickler, dass GPT-5.4 den Parameter reasoning_effort="none" stillschweigend ignoriert, wenn er mit einem Token-Budget kombiniert wird. Das Modell fällt auf volles Reasoning zurück, verbrennt dein gesamtes Token-Budget mit unsichtbarem Denken und gibt einen leeren String zurück. Du sagst ihm explizit "denk nicht" und es denkt härter als je zuvor — und berechnet dir dann das Privileg, nichts zurückzubekommen.

OpenAI bestätigte den Bug am 9. April und behauptet, ein Fix sei bis zum 20. April deployed — aber 18 Tage lang war der "Aus-Schalter" für Reasoning reines Theater. Achtzehn Tage lang existierte ein Parameter ausschließlich dazu, Entwicklern das Gefühl von Kontrolle zu geben, während das Modell machte, was es wollte. Peak UX.

Kein Per-Step-Reasoning-Budget-API existiert. Kein Per-Run-Cap. OpenAI bietet organisationsweite monatliche Ausgabenlimits — das Äquivalent eines Kreditkartenlimits, wenn du eigentlich ein Preisschild für jeden einzelnen Artikel brauchst.

Zum Kontext: Anthropics Extended Thinking hat dieselbe strukturelle Intransparenz. Googles Gemini Thinking Mode zeigt wenigstens den Reasoning-Text im Output an, sodass du sehen kannst, wofür du zahlst.

Was das für dich bedeutet

Was du fragst, bestimmt nicht mehr deine Agent-Kosten. Wie schwer das Modell privat entscheidet, dass die Frage ist — das bestimmt sie, und diese Entscheidung variiert zwischen identischen Anfragen an verschiedenen Tagen. Jeder autonome Run ist eine offene Rechnung, bei der das Modell den Stift hält.

Agent-Pricing braucht Per-Step-Reasoning-Caps und transparente Thinking-Budgets. Bis OpenAI die liefert, behandle jeden Agent-Run wie einen Spielautomaten mit veröffentlichter Auszahlungstabelle, aber ohne Maximaleinsatz.