Você usou a calculadora de preços da OpenAI mês passado. Tokens de entrada — pedaços de palavras que a IA lê — entram, tokens de saída saem, multiplicação simples. Sua planilha de orçamento ficou bonita. Responsável, até.
Aí sua fatura de abril chegou 4x acima do estimado. Você não mudou seus prompts. Não adicionou workflows. Não aumentou volume. Então o que aconteceu?
O medidor invisível começou a rodar
Em 15–16 de abril, a OpenAI lançou duas atualizações grandes: o Agents SDK v0.14 com orquestração nativa de modelos, e o modo de uso autônomo de computador do Codex. Ambos usam GPT-5.4 por padrão — um modelo de raciocínio. Diferente dos modelos clássicos que só respondem, modelos de raciocínio geram "thinking tokens" — computação interna onde a IA debate consigo mesma antes de responder. Você nunca vê esses tokens na saída. Mas eles batem na sua fatura como tokens de saída, com preço de token de saída.
O modelo decide autonomamente quanto pensar baseado na dificuldade percebida do problema. Uma pergunta trivial pode queimar 200 thinking tokens. Uma complexa — 10.000. A mesma pergunta em dias diferentes? De 2x a 9,7x de variância, segundo um preprint de março de 2026 de Stanford, Berkeley, CMU e Microsoft.
A matemática fica feia rápido
Num agente multi-etapas — onde a IA executa dezenas de ações sequenciais — essa variância se acumula. Cada etapa é uma alocação nova de raciocínio que você não pode prever ou controlar. Um preprint analisando 11.872 consultas em 8 modelos descobriu que thinking tokens representam 80%+ dos custos totais de saída, e em 21,8% das comparações entre modelos, o modelo supostamente mais barato na verdade custou mais — com magnitude de inversão chegando a 28x. Você leu certo: a opção econômica pode custar 28 vezes mais que a premium. As páginas de preço são decorativas a essa altura.
Dados reais confirmam: a plataforma de desenvolvimento GrisLabs rastreou 1.127 execuções de agentes em março de 2026 e encontrou custo mediano de $1,22, mas percentil 95 de $22,14 — uma proporção de 18x entre execuções típicas e caras fazendo o mesmo trabalho. Mesmo prompt, mesmo pipeline, dispersão de 18x. Seu financeiro vai adorar essa análise de variância.
Piora: o botão de desligar era cenográfico
Em 2 de abril, desenvolvedores descobriram que o GPT-5.4 ignora silenciosamente o parâmetro reasoning_effort="none" quando combinado com um budget de tokens. O modelo volta ao raciocínio completo, queima toda sua alocação de tokens em pensamento invisível, e retorna uma string vazia. Você explicitamente diz "não pensa" e ele pensa mais do que nunca — e depois te cobra pelo privilégio de não receber nada de volta.
A OpenAI reconheceu o bug em 9 de abril e afirmou que um fix foi deployado até 20 de abril — mas por 18 dias, o "botão de desligar" do raciocínio era puramente teatral. Dezoito dias de um parâmetro que existia unicamente para dar ao desenvolvedor a ilusão de controle enquanto o modelo fazia o que queria. Pico de UX.
Não existe API de budget de raciocínio por etapa. Nem cap por execução. A OpenAI oferece limites mensais de gasto por organização — o equivalente a um limite de cartão de crédito quando o que você precisa é saber o preço de cada item.
Pra contextualizar: o extended thinking da Anthropic tem a mesma opacidade estrutural. O modo de raciocínio do Gemini do Google pelo menos mostra o texto de raciocínio na saída, então você vê pelo que está pagando.
O que isso significa pra você
O que você pergunta não controla mais o custo do seu agente. O quão difícil o modelo decide internamente que a pergunta é — isso controla, e essa decisão varia entre requisições idênticas em dias diferentes. Cada execução autônoma é uma fatura em aberto onde o modelo segura a caneta.
Precificação de agentes precisa de caps de raciocínio por etapa e budgets de pensamento transparentes. Até a OpenAI lançar isso, trate cada execução de agente como um caça-níquel com tabela de pagamento publicada mas sem aposta máxima.




