Ce matin, on a décortiqué les Managed Agents d'Anthropic comme stratégie de plateforme — quatre couches de verrouillage, chacune plus collante que la précédente. Mais le modèle de facturation planqué dans cette annonce mérite sa propre autopsie. Parce que ton modèle de coûts IA a bifurqué le 8 avril, et ton DAF n'est pas encore au courant.
Voici la scission. Les appels API classiques — question entrante, réponse sortante — continuent d'être facturés au token, comme d'habitude. Mais tout ce qui boucle, réessaie, exécute des outils ou raisonne de manière autonome embarque désormais un second compteur : $0.08 par session-heure, facturé à la milliseconde. Deux compteurs qui tournent en parallèle. Anthropic est le premier grand fournisseur à tarifer le compute agent de cette manière. OpenAI et Google ont pris des directions radicalement différentes.
Faisons tourner la même charge de travail chez les trois. Une tâche agent réaliste : revue de code sur un dépôt de taille moyenne. Une heure de runtime. L'agent lit des fichiers, lance des tests, boucle sur les échecs, rédige un résumé. Au final, il a consommé environ 500K tokens d'entrée et 100K tokens de sortie.
Anthropic (Sonnet 4.6) : Runtime de session à $0.08. Tokens d'entrée à $3/M : $1.50. Sortie à $15/M : $1.50. Total : $3.08. Les frais de session représentent 2.6% de la note.
OpenAI (GPT-5.2-Codex) : Pas de frais de session. Entrée à $1.75/M : $0.88. Sortie à $14/M : $1.40. Total : $2.28. Tokens purs. Rien d'autre à suivre.
Google (Vertex AI Agent Engine) : Facturation au compute par seconde — vCPU et mémoire, tarifés comme un conteneur cloud. Un runtime agent standard coûte environ $3 à $8 de l'heure selon la configuration, et tu paies les tarifs token Gemini en plus. Le total varie énormément mais s'intègre généralement dans les engagements GCP existants. La même tâche atterrit autour de $5–$10 — ou quasi zéro si tu as déjà engagé assez de dépenses GCP pour le trimestre.
À petite échelle, OpenAI gagne sur le coût brut. À grande échelle, le tableau s'inverse.
Budgète 10 000 heures-agent par mois. La couche d'orchestration d'Anthropic coûte $800 forfaitaire — une ligne que ton DAF peut valider sans un cours magistral sur la tokenomics. La facture OpenAI est du variable pur : chaque token, chaque retry, chaque moment où un agent décide de reconsidérer fait bouger le chiffre. Pas de plancher, pas de plafond. Le coût agent de Google disparaît dans ton engagement cloud, ce qui est soit une feature soit un piège selon comment ton contrat est rédigé.
Le seuil de rentabilité dépend de l'appétit en tokens de tes agents. Les agents légers — monitoring, routage, vérification de statut — consomment peut-être 50K tokens par heure. Chez Anthropic, ça fait $0.31 au total. Les $0.08 de frais de session représentent alors 26% de la facture. Pas une erreur d'arrondi. Les agents lourds qui font de la génération de code ou de la recherche approfondie brûlent 1M+ tokens par heure. Les frais de session tombent sous 1%. Invisibles.
Anthropic fait un pari structurel : les agents vont devenir plus gourmands, pas plus légers. Si l'industrie tend vers l'efficacité en tokens — faire plus avec moins de contexte — la session-heure devient une taxe de plus en plus visible. Si les agents restent voraces, elle disparaît dans le bruit. Anthropic mise sur la voracité.
Trois fournisseurs, trois philosophies de facturation, zéro unité commune. Tu ne peux pas les mettre dans le même tableur sans construire un modèle de normalisation, et ce modèle nécessite des hypothèses de charge que tu n'as pas encore mesurées. Comparer les coûts IA des fournisseurs en 2026, c'est plus dur que comparer les coûts cloud en 2014 — et celui-là, on ne l'a toujours pas résolu non plus.
Donc voilà où on en est. Les appels API simples restent au compteur token. Tout ce qui est autonome vit désormais sur des sessions-heures, des tokens purs ou de la facturation cloud-compute selon ton fournisseur. Changer de crémerie, c'est réapprendre non seulement l'API mais tout le modèle financier qui va avec.
Le token était l'unité universelle du coût IA pendant trois ans. Anthropic l'a scindé en deux dimensions, et maintenant tout le monde doit choisir dans quelle devise il trade.



