Tu as utilisé le calculateur de prix d'OpenAI le mois dernier. Les tokens d'entrée — ces morceaux de mots que l'IA lit — rentrent, les tokens de sortie ressortent, simple multiplication. Ton tableur budgétaire avait l'air propre. Responsable, même.

Puis ta facture d'avril est tombée : 4x au-dessus de l'estimation. Tu n'as pas changé tes prompts. Pas ajouté de workflows. Pas augmenté le volume. Alors qu'est-ce qui s'est passé ?

Le compteur invisible s'est mis en marche

Les 15-16 avril, OpenAI a livré deux mises à jour majeures : le Agents SDK v0.14 avec orchestration native au modèle, et le mode computer-use autonome de Codex. Les deux utilisent GPT-5.4 par défaut — un modèle de raisonnement. Contrairement aux modèles classiques qui se contentent de répondre, les modèles de raisonnement génèrent des "thinking tokens" — du calcul interne où l'IA débat avec elle-même avant de répondre. Tu ne vois jamais ces tokens dans la sortie. Mais ils apparaissent sur ta facture comme tokens de sortie, au tarif des tokens de sortie.

Le modèle décide de manière autonome combien il réfléchit en fonction de la difficulté perçue du problème. Une question triviale peut brûler 200 thinking tokens. Une question complexe — 10 000. La même question à des jours différents ? Entre 2x et 9,7x de variance, selon un preprint de mars 2026 de Stanford, Berkeley, CMU et Microsoft.

Les maths deviennent vite laides

Dans une exécution d'agent multi-étapes — où l'IA effectue des dizaines d'actions séquentielles — cette variance se cumule. Chaque étape est une allocation de raisonnement fraîche que tu ne peux ni prédire ni contrôler. Un preprint analysant 11 872 requêtes sur 8 modèles a révélé que les thinking tokens représentent plus de 80 % des coûts totaux de sortie, et que dans 21,8 % des comparaisons de modèles, le modèle supposément moins cher coûtait en réalité plus — avec une inversion atteignant 28x. Tu as bien lu : l'option budget peut coûter 28 fois plus que l'option premium. Les pages de tarification sont purement décoratives à ce stade.

Les données terrain le confirment : la plateforme de développement GrisLabs a suivi 1 127 exécutions d'agents en mars 2026 et a constaté un coût médian de 1,22 $ mais un 95e percentile à 22,14 $ — un ratio de 18x entre les exécutions normales et les exécutions coûteuses pour le même boulot. Même prompt, même pipeline, 18x d'écart. Ton DAF va adorer cette analyse de variance.

C'est pire : le bouton off était un accessoire

Le 2 avril, des développeurs ont découvert que GPT-5.4 ignore silencieusement le paramètre reasoning_effort="none" quand il est combiné avec un budget de tokens. Le modèle revient au raisonnement complet par défaut, crème l'intégralité de ton allocation de tokens en réflexion invisible, et te renvoie une chaîne vide. Tu lui dis explicitement "ne réfléchis pas" et il réfléchit plus fort que jamais — puis te facture le privilège de n'avoir rien reçu.

OpenAI a reconnu le bug le 9 avril et affirme qu'un correctif a été déployé le 20 avril — mais pendant 18 jours, le "bouton off" du raisonnement était purement théâtral. Dix-huit jours d'un paramètre qui existait uniquement pour donner aux développeurs l'illusion du contrôle pendant que le modèle faisait ce qu'il voulait. Le sommet de l'UX.

Aucune API de budget de raisonnement par étape n'existe. Aucun plafond par exécution. OpenAI propose des limites de dépenses mensuelles au niveau de l'organisation — l'équivalent d'un plafond de carte bleue quand ce dont tu as besoin, c'est un prix affiché sur chaque article.

Pour contexte : l'extended thinking d'Anthropic a la même opacité structurelle. Le mode thinking de Gemini de Google affiche au moins le texte de raisonnement dans la sortie, donc tu peux voir ce que tu paies.

Ce que ça signifie pour toi

Ce que tu demandes ne contrôle plus le coût de ton agent. La difficulté que le modèle décide en privé d'attribuer à ta question — c'est ça qui le contrôle, et cette décision varie entre des requêtes identiques à des jours différents. Chaque exécution autonome est une facture ouverte où c'est le modèle qui tient le stylo.

La tarification des agents a besoin de plafonds de raisonnement par étape et de budgets de réflexion transparents. Tant qu'OpenAI ne livre pas ça, traite chaque exécution d'agent comme une machine à sous avec une grille de gains affichée mais aucune mise maximale.