A Anthropic lançou os Managed Agents, a OpenAI cobra por cada token com taxas de plataforma empilhadas por cima, e o Google cobra por vCPU-hora. Cobrimos o evento e o zoológico de cobranças ontem. Mas todo mundo — inclusive eu — gastou tempo demais encarando as taxas de orquestração. O número de verdade está escondido uma camada abaixo.
Os custos de orquestração — $0,08/sessão-hora na Anthropic, ~$0,09/vCPU-hora no Google — são ruído. Uns centavos por hora de babá. O número que deveria tirar o sono do seu CFO é o preço do token, porque é aí que mora a diferença de 10x.
A Conta Que Ninguém Mostrou Primeiro
Veja o que os modelos cobram pra processar um milhão de tokens de entrada:
- Gemini 2.5 Flash: $0,30
- GPT-5: $1,25
- Claude Sonnet 4.5: $3,00
Isso não é diferença de arredondamento. O modelo mais barato do Google custa um décimo do cavalo de batalha da Anthropic em inferência pura. Um agente mastigando um milhão de tokens — mais ou menos 750.000 palavras — roda a $0,30 no Flash contra $3,00 no Claude. Multiplique por milhares de sessões diárias e as taxas de orquestração viram nota de rodapé numa planilha bem mais feia.
Esse é o campo de batalha real. Não quem cobra o quê pela sandbox. Quem cobra o quê pelo raciocínio.
O Playbook Android do Google, Versão 2.0
O analista enterprise Kai Waehner escreveu em 6 de abril: o Google já tem 11 milhões de organizações conectadas ao Cloud passando o cartão todo mês. Eles não precisam ganhar nas margens de orquestração de agentes. Precisam que os agentes consumam mais computação numa infraestrutura que os clientes já pagam.
Isso é a economia do Android aplicada à IA. Distribua o runtime quase de graça, torne irresistível no preço, e monetize o ecossistema que os clientes constroem em volta. O tier gratuito do Vertex AI Agent Engine cobre ~50 horas de computação por mês — o suficiente pra deixar seus pipelines dependentes do session management do Google ($0,25 por 1.000 eventos), dos memory banks do Google, do RAG Engine do Google.
Waehner de novo: "Escolher Gemini significa escolher o Google Cloud como sua camada de inferência, o Google Workspace como sua superfície de produtividade, e o Vertex AI como sua plataforma de desenvolvimento."
Isso não é uma decisão de preço. É uma cerimônia de adoção.
A Parte Onde "Barato" Fica Caro
O desconto de 10x no token vem grampeado à stack inteira do Google. Seus agentes ficam plugados no Vertex session management, no document retrieval do Google, na camada de orquestração do Google. Migrar pra Anthropic ou OpenAI depois significa reconstruir do zero — data pipelines, memory stores, lógica de retrieval, tudo.
A Anthropic joga a carta oposta. O Claude está disponível pela própria API, pelo AWS Bedrock e pelo Vertex AI do próprio Google. Custo por token mais alto, mas você está comprando a porta de saída. A OpenAI fica no meio, fazendo hedge com Azure enquanto constrói sua própria gravidade de plataforma.
Os tokens mais baratos vêm com a infraestrutura mais grudenta. Sempre foi assim, sempre vai ser.
O Que Isso Significa Pra Você
Se você está escolhendo uma plataforma de agentes este mês, pare de comparar taxas de orquestração. O gap de custo por token entre provedores é 5-10x maior que o gap de custo de runtime. Rode as contas do gasto total de inferência no seu volume projetado, e depois se pergunte quanto você pagaria pra trocar de provedor daqui a dois anos.
A guerra dos agentes de IA deixou de ser sobre quem constrói o modelo mais inteligente. É sobre quem já tem o seu contrato de cloud — e quem consegue fazer o "grátis" parecer uma pechincha até os custos de migração chegarem. O Google tem mais desses contratos que qualquer um, e acabou de precificar seu runtime de agentes como alguém que sabe disso.





