Todo mundo tem uma timeline pra AGI. Sam Altman diz que faltam poucos anos. Demis Hassabis diz que nesta década. Seu feed do LinkedIn diz que é terça que vem. A palavra "AGI" — inteligência artificial geral, ou seja, uma IA que dá conta de qualquer tarefa intelectual que um humano consegue fazer — virou o teste de Rorschach da tecnologia. Cada um enxerga o que quer.
O problema é que você não consegue medir progresso em direção a algo que se recusa a definir. "Estamos perto da AGI" tem exatamente o mesmo peso científico de "tô com pressentimento bom hoje". É vibe em press release.
No dia 17 de março, o Google DeepMind fez algo incomumente honesto pra um laboratório na corrida armamentista da AGI. Eles publicaram um paper chamado "Measuring Progress Toward AGI: A Cognitive Framework" — definindo o que inteligência geral realmente é e admitindo que os modelos atuais não a possuem.
O framework divide inteligência em 10 faculdades cognitivas — habilidades mentais distintas que, juntas, formam o que chamaríamos de "geral". Oito são fundamentais: percepção (processar input sensorial), geração (criar conteúdo), atenção (focar no que importa), aprendizado (adquirir novas habilidades a partir da experiência), memória (armazenar e recuperar informação), raciocínio (tirar conclusões lógicas), metacognição (saber o que você não sabe — aquela voz na sua cabeça que diz "peraí, eu tenho certeza disso?") e funções executivas (planejar, mudar de estratégia no meio do caminho, manter o foco). Duas são compostas, ou seja, exigem várias faculdades disparando juntas: resolução de problemas e cognição social (ler as intenções e emoções dos outros).
A afirmação central não é a lista em si. É isso: um sistema fraco em uma única faculdade vai tropeçar em tarefas do mundo real. Inteligência não é um número num ranking. É um perfil ao longo de todas as dez dimensões. Isso importa porque os benchmarks atuais de IA — testes padronizados que a indústria usa pra medir o quão esperta uma modelo é — só verificam fatias estreitas, principalmente raciocínio e resolução de problemas, e depois declaram vitória quando os scores sobem.
O DeepMind propõe uma avaliação em três etapas: coletar baselines humanos de populações representativas, mapear o desempenho da IA contra essas distribuições, e depois gerar perfis cognitivos estilo gráfico radar — pense num diagrama de teia de aranha onde cada eixo é uma faculdade. Sem nota única. Sem "supera humanos em tudo". Apenas um retrato honesto de forças e pontos cegos.
Agora vem a parte desconfortável. Os LLMs atuais — large language models, a tecnologia por trás do ChatGPT, Claude e Gemini — vão bem em cinco faculdades: percepção, geração, memória, raciocínio e resolução de problemas. Essas são exatamente as áreas que os benchmarks existentes já cobrem. As outras cinco — aprendizado, metacognição, atenção, funções executivas, cognição social — não têm benchmarks confiáveis. Não dá pra testar se a IA as possui porque ninguém construiu os testes.
A solução do DeepMind: crowdsourcing. Eles lançaram uma competição de US$ 200.000 no Kaggle — uma plataforma onde cientistas de dados competem pra resolver problemas — com prazo até 16 de abril. O desafio: criar avaliações para aquelas cinco faculdades do ponto cego. Dois vencedores por track ganham US$ 10.000. Quatro ganhadores do grand prize levam US$ 25.000. Resultados saem em 1º de junho.
Jogada inteligente. Mas também expõe a profundidade do buraco. Metade do que faz a inteligência ser "geral" está num vácuo de medição. Quando qualquer laboratório de IA diz que seu modelo está "se aproximando da AGI", estão dando nota numa prova que cobre 50% da matéria. É como se chamar de médico depois de passar em cinco de dez provas do conselho.
Críticas válidas existem. A própria ciência cognitiva debate se a inteligência se decompõe direitinho em categorias — cérebros humanos são bagunçados, e taxonomias limpas podem não refletir a realidade. Baselines humanos vão variar entre demografias e culturas. E a leitura cínica se escreve sozinha: Google publica um framework que destaca áreas onde ninguém tem dados, convenientemente ganhando tempo antes que concorrentes reivindiquem AGI nos termos de outra pessoa.
Mas pra você — a pessoa que absorve manchetes sobre AGI toda semana — esse framework funciona como um filtro de bullshit. Na próxima vez que um CEO anunciar "estamos 90% do caminho pra AGI", pergunte: 90% em quais faculdades? O modelo tem metacognição? Ele consegue aprender com um único exemplo do jeito que uma criança aprende "quente" ao encostar no fogão uma vez? Ele consegue planejar três passos à frente e descartar o plano quando o primeiro passo falha?
AGI costumava ser uma questão de filosofia — debates de poltrona sobre consciência, senciência e o Quarto Chinês. Doze dias atrás, o DeepMind transformou isso num problema de medição. Isso não resolve a questão. Mas é a diferença entre discutir se uma montanha existe e puxar um mapa topográfico com marcadores de elevação.
Modelos atuais tiram 5 de 10. Os cinco restantes são a parte difícil. Pelo menos agora existe um boletim — e todo mundo faz a mesma prova.





