Hoje de manhã cobrimos os Managed Agents da Anthropic como jogada de plataforma — quatro camadas de lock-in, cada uma mais grudenta que a anterior. Mas o modelo de cobrança enterrado nesse lançamento merece sua própria autópsia. Porque o seu modelo de custo de IA bifurcou no dia 8 de abril, e o financeiro da sua empresa ainda não ficou sabendo.
A divisão é a seguinte. Chamadas tradicionais de API — pergunta entra, resposta sai — continuam cobrando por token, como sempre. Mas qualquer coisa que faça loop, retry, execute tools ou pense de forma autônoma agora carrega uma segunda cobrança: $0,08 por hora de sessão, medido até o milissegundo. Dois medidores rodando ao mesmo tempo. A Anthropic é o primeiro grande vendor a precificar computação de agentes assim. OpenAI e Google foram em direções completamente diferentes.
Vamos rodar a mesma carga de trabalho nos três. Uma tarefa realista de agente: code review em um repositório médio. Uma hora de execução. O agente lê arquivos, roda testes, faz loop em falhas, escreve um resumo. No final, consumiu aproximadamente 500K tokens de entrada e 100K tokens de saída.
Anthropic (Sonnet 4.6): Runtime de sessão a $0,08. Tokens de entrada a $3/M: $1,50. Saída a $15/M: $1,50. Total: $3,08. A taxa de sessão é 2,6% da conta.
OpenAI (GPT-5.2-Codex): Sem taxa de sessão. Entrada a $1,75/M: $0,88. Saída a $14/M: $1,40. Total: $2,28. Tokens puros. Nada mais pra rastrear.
Google (Vertex AI Agent Engine): Cobrança por segundo de compute — vCPU e memória, precificado como um container na nuvem. Um runtime padrão de agente custa entre $3 e $8 por hora dependendo da configuração, e você paga as taxas de token do Gemini por cima. O total varia absurdamente, mas normalmente fica embutido nos compromissos existentes com GCP. A mesma tarefa pode ficar em torno de $5–$10 — ou efetivamente zero se você já comprometeu spend suficiente no GCP pro trimestre.
Em escala pequena, a OpenAI ganha no custo bruto. Em escala, o jogo vira.
Coloque no orçamento 10.000 horas-agente por mês. A camada de orquestração da Anthropic são $800 fixos — uma linha que um CFO consegue aprovar sem precisar de uma aula sobre tokenomics. A conta da OpenAI é 100% variável: cada token, cada retry, cada momento que um agente decide reconsiderar move o número. Sem piso, sem teto. O custo de agente do Google desaparece dentro do seu compromisso com a nuvem, o que é uma feature ou uma armadilha dependendo de como o seu contrato está redigido.
O ponto de equilíbrio depende de quanto seus agentes consomem tokens. Agentes leves — monitoramento, roteamento, checagem de status — podem usar 50K tokens por hora. Na Anthropic, isso dá $0,31 no total. Aquela taxa de sessão de $0,08 agora é 26% da conta. Não é erro de arredondamento. Agentes pesados fazendo geração de código ou pesquisa profunda queimam 1M+ tokens por hora. A taxa de sessão cai pra menos de 1%. Invisível.
A Anthropic está fazendo uma aposta embutida: agentes vão ficar mais pesados, não mais leves. Se a tendência da indústria for eficiência de tokens — fazer mais com menos contexto — a hora-sessão se torna um imposto cada vez mais visível. Se os agentes continuarem famintos, ela desaparece no ruído. A Anthropic está apostando nos famintos.
Três vendors, três filosofias de cobrança, zero unidades em comum. Você não consegue colocar os três na mesma planilha sem construir um modelo de normalização, e esse modelo exige premissas de carga de trabalho que você ainda não mediu. Comparar custos de vendors de IA em 2026 é mais difícil do que comparar custos de nuvem em 2014 — e aquilo a gente ainda não resolveu.
Então fica assim. Chamadas simples de API continuam no medidor de tokens. Qualquer coisa autônoma agora vive em horas-sessão, tokens puros, ou cobrança de compute na nuvem, dependendo do seu vendor. Trocar significa reaprender não só a API, mas todo o modelo financeiro ao redor dela.
O token foi a unidade universal de custo de IA por três anos. A Anthropic dividiu isso em duas dimensões, e agora todo mundo tem que escolher em qual denominação está negociando.



