O número que falta em todo dashboard de agentes de IA importa mais do que qualquer número que os vendors escolheram incluir: o agente realmente fez o que você pediu?
Essa semana, mais duas plataformas entraram pro clube das métricas de consumo. Em 10 de abril, o GitHub adicionou contagem de usuários ativos pro seu cloud agent. Em 8 de abril, a Anthropic lançou Managed Agents a $0,08 por hora de sessão — cobrada por milissegundo, tokens à parte. Eles se juntam ao Vertex AI Agent Engine do Google, que cobra por vCPU-segundo desde o GA no ano passado, e ao Codex da OpenAI, cuja métrica "Success Rate" mede se a chamada de API completou — não se o código funciona.
Isso é medir a produtividade de um cirurgião pela quantidade de bisturis que ele pegou.
Quatro grandes plataformas. Zero taxa de sucesso de tarefas. Zero score de qualidade. Zero rastreamento de quantas vezes um humano teve que refazer o trabalho do agente.
Por que ninguém mede o que importa
Não porque seja impossível. Porque é caro, constrangedor e péssimo pro balanço trimestral.
Um chatbot dá uma resposta e você avalia na hora. Um agente encadeia dez etapas — lê um ticket, pesquisa docs, escreve código, abre um PR, manda mensagem no Slack. Cada etapa pode falhar silenciosamente. O resultado final exige expertise de domínio pra avaliar. Os vendors nem definiram o que "sucesso" significa pra um agente, muito menos mediram.
E a pesquisa que existe não é exatamente material de apresentação pra investidor.
O gap de confiabilidade que ninguém divulga
Em 24 de fevereiro, os pesquisadores de Princeton Kapoor e Narayanan publicaram um estudo testando 14 modelos de IA em 500 rodadas de benchmark. A descoberta: a confiabilidade de agentes — fazer a mesma tarefa corretamente toda vez — melhorou na metade da velocidade da capacidade bruta em tarefas gerais. Em tarefas de atendimento ao cliente, a confiabilidade avançou a apenas 14% da taxa de acurácia. Conclusão deles: "Agentes não sabem quando estão errando."
Esse é o número que deveria estar em todo dashboard e não está.
O pesquisador de IA Andrej Karpathy — cofundador da OpenAI, ex-líder de IA da Tesla — quantificou o que isso significa na prática com seu framework "March of Nines" em novembro de 2025: se cada etapa num workflow de dez passos tem 90% de sucesso, a taxa de sucesso ponta a ponta cai pra 35%. Agora imagina esse agente rodando sozinho às 3 da manhã, cobrado por hora, sem ninguém olhando.
Os dados de apoio só aumentam. Uma análise da CodeRabbit publicada em 19 de março examinou 470 PRs no GitHub e descobriu que código escrito por IA gera 1,7x mais issues por PR que código humano, com vulnerabilidades de segurança 2,74x maiores. A pesquisa da LangChain publicada em 25 de março ouviu 1.340 profissionais: 57% já rodam agentes em produção, mas apenas 52% avaliam os resultados depois, e só 37% monitoram qualidade enquanto os agentes rodam ao vivo.
Mais da metade da indústria colocou agentes em produção antes de descobrir como saber se funcionam. Estratégia ousada.
Siga o dinheiro
Cobrança por uso lucra igualmente com uma sessão de três horas que falhou e uma que deu certo. Um vendor cobrando $0,08 por hora de sessão tem zero incentivo financeiro pra te ajudar a descobrir que 40% dessas sessões produzem lixo. Medir resultados prejudicaria ativamente a métrica que Wall Street observa: receita por cliente.
Ferramentas de observabilidade de terceiros — LangSmith, Braintrust, Helicone — estão tentando preencher essa lacuna. Mas as quatro maiores plataformas de agentes não entregam nada nativo. Você ganha um velocímetro sem destino.
O que isso significa pra você
Se seu time avalia agentes autônomos — e estatisticamente, avalia — exija o único número que todo vendor desvia: qual porcentagem de tarefas seu agente completa corretamente sem intervenção humana?
Se não conseguem responder, você não está comprando uma ferramenta de produtividade. Está comprando um medidor de cobrança acoplado a uma moeda jogada pro alto.
A economia dos agentes nasceu com uma fatura onde precisava de um boletim. Até alguém construir esse boletim, você é a camada de qualidade que a plataforma não entregou. Planeje seu orçamento de acordo.



