DeepMind crée un bulletin de notes pour l'AGI — et les modèles actuels se plantent sur la moitié

Tout le monde a son calendrier pour l'AGI. Sam Altman dit quelques années. Demis Hassabis dit cette décennie. Ton fil LinkedIn dit mardi prochain. Le mot « AGI » — intelligence artificielle générale, c'est-à-dire une IA capable de gérer n'importe quelle tâche intellectuelle qu'un humain peut accomplir — est devenu le test de Rorschach de la tech. Chacun y voit ce qu'il veut.

Le problème, c'est qu'on ne peut pas mesurer la progression vers quelque chose qu'on refuse de définir. « On s'approche de l'AGI » a exactement le même poids scientifique que « je me sens chanceux aujourd'hui ». C'est du feeling habillé en communiqué de presse.

Le 17 mars, Google DeepMind a fait quelque chose d'inhabituellement honnête pour un labo en pleine course à l'AGI. Ils ont publié un article intitulé « Measuring Progress Toward AGI: A Cognitive Framework » — définissant ce qu'est réellement l'intelligence générale et admettant que les modèles actuels ne l'ont pas.

Le framework décompose l'intelligence en 10 facultés cognitives — des capacités mentales distinctes qui, ensemble, constituent ce qu'on appellerait « générale ». Huit sont fondamentales : la perception (traiter les entrées sensorielles), la génération (créer du contenu), l'attention (se concentrer sur ce qui compte), l'apprentissage (acquérir de nouvelles compétences par l'expérience), la mémoire (stocker et retrouver l'information), le raisonnement (tirer des conclusions logiques), la métacognition (savoir ce qu'on ne sait pas — cette petite voix dans ta tête qui dit « attends, j'en suis sûr, là ? »), et les fonctions exécutives (planifier, changer de stratégie en pleine action, rester sur les rails). Deux sont composites, c'est-à-dire qu'elles nécessitent plusieurs facultés en simultané : la résolution de problèmes et la cognition sociale (décoder les intentions et émotions des autres).

L'affirmation clé, ce n'est pas la liste en soi. C'est ceci : un système faible sur une seule faculté va se planter sur des tâches du monde réel. L'intelligence n'est pas un seul chiffre dans un classement. C'est un profil à travers les dix dimensions. C'est important parce que les benchmarks actuels de l'IA — les tests standardisés que l'industrie utilise pour mesurer l'intelligence d'un modèle — ne vérifient que des tranches étroites, essentiellement le raisonnement et la résolution de problèmes, puis déclarent victoire quand les scores montent d'un cran.

DeepMind propose une évaluation en trois étapes : collecter des références humaines à partir de populations représentatives, cartographier les performances de l'IA par rapport à ces distributions, puis générer des profils cognitifs en diagramme radar — imagine un graphique en toile d'araignée où chaque axe représente une faculté. Pas de score unique. Pas de « bat les humains sur tout ». Juste une image honnête des forces et des angles morts.

Maintenant, la partie qui dérange. Les LLMs actuels — les grands modèles de langage, la technologie derrière ChatGPT, Claude et Gemini — obtiennent de bons scores sur cinq facultés : perception, génération, mémoire, raisonnement et résolution de problèmes. Ce sont exactement les domaines que les benchmarks existants couvrent déjà. Les cinq autres — apprentissage, métacognition, attention, fonctions exécutives, cognition sociale — n'ont aucun benchmark fiable. On ne peut pas tester si l'IA les possède parce que personne n'a construit les tests.

La solution de DeepMind : le crowdsourcing. Ils ont lancé une compétition à 200 000 $ sur Kaggle — une plateforme où des data scientists s'affrontent pour résoudre des problèmes — ouverte jusqu'au 16 avril. Le défi : concevoir des évaluations pour ces cinq facultés en zone d'ombre. Deux gagnants par catégorie empochent 10 000 $. Quatre grands gagnants raflent 25 000 $. Résultats le 1er juin.

Malin. Mais ça expose aussi la profondeur du trou. La moitié de ce qui rend l'intelligence « générale » flotte dans un vide de mesure. Quand un labo d'IA affirme que son modèle « s'approche de l'AGI », il note un examen qui couvre 50 % du programme. C'est comme se prétendre médecin après avoir validé cinq épreuves sur dix au concours.

Les critiques légitimes existent. Les sciences cognitives débattent elles-mêmes de la pertinence de découper l'intelligence en catégories bien propres — le cerveau humain est un bazar, et des taxonomies bien rangées ne reflètent pas forcément la réalité. Les références humaines varieront selon les démographies et les cultures. Et la lecture cynique s'écrit toute seule : Google publie un framework qui met en lumière des zones où personne n'a de données, s'achetant commodément du temps avant que ses concurrents ne revendiquent l'AGI selon les règles de quelqu'un d'autre.

Mais pour toi — la personne qui absorbe des titres sur l'AGI chaque semaine — ce framework fait office de détecteur de baratin. La prochaine fois qu'un CEO annonce « on est à 90 % de l'AGI », demande : 90 % sur quelles facultés ? Le modèle a-t-il une métacognition ? Peut-il apprendre d'un seul exemple comme un gamin apprend « chaud » en touchant un radiateur une seule fois ? Peut-il planifier trois coups d'avance et jeter le plan quand le premier échoue ?

L'AGI était une question de philosophie — des débats de salon sur la conscience, la sentience et la chambre chinoise de Searle. Il y a douze jours, DeepMind l'a transformée en problème de mesure. Ça ne la résout pas. Mais c'est la différence entre débattre de l'existence d'une montagne et sortir une carte topographique avec des courbes de niveau.

Les modèles actuels obtiennent 5 sur 10. Les cinq restants sont la partie difficile. Au moins maintenant, il y a un bulletin de notes — et tout le monde passe le même examen.

DeepMind crée un bulletin de notes pour l'AGI — et les modèles actuels se plantent sur la moitié

Keep reading

L'IA open source rattrape son retard bien plus vite que tu ne le crois

Pourquoi la plupart des startups IA vont échouer en 2026

La boite de dialogue de permission de ton agent est un placebo

MCP marche partout - jusqu'a ce que tu essaies de t'authentifier