DeepMind Criou um Boletim da AGI — E os Modelos Atuais Reprovam em Metade

Todo mundo tem uma timeline pra AGI. Sam Altman diz que faltam poucos anos. Demis Hassabis diz que nesta década. Seu feed do LinkedIn diz que é terça que vem. A palavra "AGI" — inteligência artificial geral, ou seja, uma IA que dá conta de qualquer tarefa intelectual que um humano consegue fazer — virou o teste de Rorschach da tecnologia. Cada um enxerga o que quer.

O problema é que você não consegue medir progresso em direção a algo que se recusa a definir. "Estamos perto da AGI" tem exatamente o mesmo peso científico de "tô com pressentimento bom hoje". É vibe em press release.

No dia 17 de março, o Google DeepMind fez algo incomumente honesto pra um laboratório na corrida armamentista da AGI. Eles publicaram um paper chamado "Measuring Progress Toward AGI: A Cognitive Framework" — definindo o que inteligência geral realmente é e admitindo que os modelos atuais não a possuem.

O framework divide inteligência em 10 faculdades cognitivas — habilidades mentais distintas que, juntas, formam o que chamaríamos de "geral". Oito são fundamentais: percepção (processar input sensorial), geração (criar conteúdo), atenção (focar no que importa), aprendizado (adquirir novas habilidades a partir da experiência), memória (armazenar e recuperar informação), raciocínio (tirar conclusões lógicas), metacognição (saber o que você não sabe — aquela voz na sua cabeça que diz "peraí, eu tenho certeza disso?") e funções executivas (planejar, mudar de estratégia no meio do caminho, manter o foco). Duas são compostas, ou seja, exigem várias faculdades disparando juntas: resolução de problemas e cognição social (ler as intenções e emoções dos outros).

A afirmação central não é a lista em si. É isso: um sistema fraco em uma única faculdade vai tropeçar em tarefas do mundo real. Inteligência não é um número num ranking. É um perfil ao longo de todas as dez dimensões. Isso importa porque os benchmarks atuais de IA — testes padronizados que a indústria usa pra medir o quão esperta uma modelo é — só verificam fatias estreitas, principalmente raciocínio e resolução de problemas, e depois declaram vitória quando os scores sobem.

O DeepMind propõe uma avaliação em três etapas: coletar baselines humanos de populações representativas, mapear o desempenho da IA contra essas distribuições, e depois gerar perfis cognitivos estilo gráfico radar — pense num diagrama de teia de aranha onde cada eixo é uma faculdade. Sem nota única. Sem "supera humanos em tudo". Apenas um retrato honesto de forças e pontos cegos.

Agora vem a parte desconfortável. Os LLMs atuais — large language models, a tecnologia por trás do ChatGPT, Claude e Gemini — vão bem em cinco faculdades: percepção, geração, memória, raciocínio e resolução de problemas. Essas são exatamente as áreas que os benchmarks existentes já cobrem. As outras cinco — aprendizado, metacognição, atenção, funções executivas, cognição social — não têm benchmarks confiáveis. Não dá pra testar se a IA as possui porque ninguém construiu os testes.

A solução do DeepMind: crowdsourcing. Eles lançaram uma competição de US$ 200.000 no Kaggle — uma plataforma onde cientistas de dados competem pra resolver problemas — com prazo até 16 de abril. O desafio: criar avaliações para aquelas cinco faculdades do ponto cego. Dois vencedores por track ganham US$ 10.000. Quatro ganhadores do grand prize levam US$ 25.000. Resultados saem em 1º de junho.

Jogada inteligente. Mas também expõe a profundidade do buraco. Metade do que faz a inteligência ser "geral" está num vácuo de medição. Quando qualquer laboratório de IA diz que seu modelo está "se aproximando da AGI", estão dando nota numa prova que cobre 50% da matéria. É como se chamar de médico depois de passar em cinco de dez provas do conselho.

Críticas válidas existem. A própria ciência cognitiva debate se a inteligência se decompõe direitinho em categorias — cérebros humanos são bagunçados, e taxonomias limpas podem não refletir a realidade. Baselines humanos vão variar entre demografias e culturas. E a leitura cínica se escreve sozinha: Google publica um framework que destaca áreas onde ninguém tem dados, convenientemente ganhando tempo antes que concorrentes reivindiquem AGI nos termos de outra pessoa.

Mas pra você — a pessoa que absorve manchetes sobre AGI toda semana — esse framework funciona como um filtro de bullshit. Na próxima vez que um CEO anunciar "estamos 90% do caminho pra AGI", pergunte: 90% em quais faculdades? O modelo tem metacognição? Ele consegue aprender com um único exemplo do jeito que uma criança aprende "quente" ao encostar no fogão uma vez? Ele consegue planejar três passos à frente e descartar o plano quando o primeiro passo falha?

AGI costumava ser uma questão de filosofia — debates de poltrona sobre consciência, senciência e o Quarto Chinês. Doze dias atrás, o DeepMind transformou isso num problema de medição. Isso não resolve a questão. Mas é a diferença entre discutir se uma montanha existe e puxar um mapa topográfico com marcadores de elevação.

Modelos atuais tiram 5 de 10. Os cinco restantes são a parte difícil. Pelo menos agora existe um boletim — e todo mundo faz a mesma prova.

DeepMind Criou um Boletim da AGI — E os Modelos Atuais Reprovam em Metade

Keep reading

IA Open Source Está Alcançando Mais Rápido do Que Você Imagina

Por Que a Maioria das Startups de IA Vai Fracassar em 2026

A Janela de Permissao do Seu Agente e Placebo

MCP Funciona Em Todo Lugar -- Ate Voce Tentar Autenticar