Les tarifs agents de Google : une remise qui cache un piege

Anthropic a lancé Managed Agents, OpenAI facture chaque token avec des frais de plateforme empilés par-dessus, et Google facture à l'heure de vCPU. On a couvert l'événement et le zoo tarifaire hier. Mais tout le monde — moi compris — a passé trop de temps à fixer les frais d'orchestration. Le vrai chiffre se planque une couche plus bas.

Les coûts d'orchestration — 0,08 $/session-heure chez Anthropic, ~0,09 $/vCPU-heure chez Google — c'est du bruit. Quelques centimes par heure de baby-sitting. Le chiffre qui devrait réellement empêcher ton DAF de dormir, c'est le prix du token, parce que c'est là que se cache l'écart de 10x.

Le calcul que personne n'a mis en avant

Voici ce que coûte le traitement d'un million de tokens en entrée selon le modèle sous-jacent :

Gemini 2.5 Flash : 0,30 $
GPT-5 : 1,25 $
Claude Sonnet 4.5 : 3,00 $

Ce n'est pas une erreur d'arrondi. Le modèle le moins cher de Google coûte un dixième du cheval de bataille d'Anthropic en inférence brute. Un agent qui mouline un million de tokens — environ 750 000 mots — revient à 0,30 $ sur Flash contre 3,00 $ sur Claude. Multiplie par des milliers de sessions quotidiennes, et les frais d'orchestration deviennent une note de bas de page dans un tableur nettement plus moche.

C'est ça, le vrai champ de bataille. Pas qui facture quoi pour le bac à sable. Qui facture quoi pour la réflexion.

Le playbook Android de Google, version 2.0

L'analyste enterprise Kai Waehner l'a exposé le 6 avril : Google a déjà 11 millions d'organisations connectées au Cloud qui passent leur carte chaque mois. Ils n'ont pas besoin de gagner sur les marges d'orchestration d'agents. Ils ont besoin que les agents génèrent plus de consommation compute sur l'infrastructure que les clients paient déjà.

C'est l'économie d'Android appliquée à l'IA. Tu donnes le runtime quasi gratuitement, tu rends le prix irrésistible, et tu monétises l'écosystème que les clients construisent autour. Le tier gratuit de Vertex AI Agent Engine couvre ~50 heures de compute par mois — juste assez pour rendre tes pipelines dépendants de la gestion de sessions Google (0,25 $ pour 1 000 événements), des banques mémoire Google, du RAG Engine Google.

Waehner encore : « Choisir Gemini, c'est choisir Google Cloud comme couche d'inférence, Google Workspace comme surface de productivité, et Vertex AI comme plateforme de développement. »

Ce n'est pas une décision tarifaire. C'est une cérémonie d'adoption.

Le moment où « pas cher » devient très cher

La remise de 10x sur les tokens est agrafée à l'intégralité du stack Google. Tes agents se câblent dans la gestion de sessions Vertex, la récupération documentaire Google, la couche d'orchestration Google. Migrer vers Anthropic ou OpenAI plus tard, ça veut dire tout reconstruire de zéro — pipelines de données, stores mémoire, logique de retrieval, tout.

Anthropic joue la carte inverse. Claude est disponible via sa propre API, AWS Bedrock, et le propre Vertex AI de Google. Coût par token plus élevé, mais tu achètes la porte de sortie. OpenAI se situe entre les deux, couvrant ses arrières avec Azure tout en construisant sa propre force gravitationnelle.

Les tokens les moins chers viennent avec l'infrastructure la plus collante. Ça a toujours été comme ça, ça le sera toujours.

Ce que ça veut dire pour toi

Si tu choisis une plateforme d'agents ce mois-ci, arrête de comparer les frais d'orchestration. L'écart de coût par token entre fournisseurs est 5 à 10 fois plus large que l'écart de coût runtime. Fais tourner les chiffres sur la dépense totale d'inférence à ton volume projeté, puis demande-toi combien tu serais prêt à payer pour changer de fournisseur dans deux ans.

La guerre des agents IA ne porte plus sur qui construit le modèle le plus intelligent. Elle porte sur qui détient déjà ton contrat cloud — et qui peut faire passer « gratuit » pour une bonne affaire jusqu'à ce que les coûts de migration débarquent. Google détient plus de ces contrats que quiconque, et ils viennent de tarifer leur runtime d'agents comme quelqu'un qui le sait parfaitement.

Les tarifs agents de Google : une remise qui cache un piege

Le calcul que personne n'a mis en avant

Le playbook Android de Google, version 2.0

Le moment où « pas cher » devient très cher

Ce que ça veut dire pour toi

Keep reading

Trois systemes de memoire IA, zero preuve qu'ils aident vraiment

La boite de dialogue de permission de ton agent est un placebo

MCP, c'est l'Android d'Anthropic. Le lock-in est dans la spec.

ADK parle les deux protocoles. La destination, c'est Vertex.