DeepMind hat einen AGI-Scorecard entwickelt – und aktuelle Modelle bestehen nur die Hälfte

Jeder hat eine AGI-Zeitachse. Sam Altman sagt ein paar Jahre. Demis Hassabis sagt dieses Jahrzehnt. Dein LinkedIn-Feed sagt nächsten Dienstag. Das Wort "AGI" — künstliche allgemeine Intelligenz, also eine KI, die jede intellektuelle Aufgabe, die ein Mensch lösen kann, erledigen kann — ist zum Rorschachtest der Technik geworden. Jeder sieht, was er will.

Das Problem ist, dass man den Fortschritt hin zu etwas nicht messen kann, solange man es nicht definiert. "Wir sind nahe an AGI" hat genau so viel wissenschaftliches Gewicht wie "Ich habe heute ein gutes Gefühl." Es sind Vibes in einer Pressemitteilung.

Am 17. März hat Google DeepMind etwas ungewöhnlich Ehrliches für ein Labor im AGI-Wettrüsten getan. Sie haben einen Artikel veröffentlicht mit dem Titel "Measuring Progress Toward AGI: A Cognitive Framework" — der definiert, was allgemeine Intelligenz eigentlich ist und zugegeben, dass aktuelle Modelle sie nicht haben.

Der Rahmen teilt Intelligenz in 10 kognitive Fähigkeiten auf — verschiedene mentale Fähigkeiten, die zusammen das ausmachen, was wir als "allgemein" bezeichnen würden. Acht davon sind grundlegend: Wahrnehmung (Verarbeitung sensorischer Eingaben), Generation (Erstellung von Inhalten), Aufmerksamkeit (Konzentration auf das Wesentliche), Lernen (Erwerb neuer Fähigkeiten aus Erfahrungen), Gedächtnis (Speichern und Abrufen von Informationen), Logik (Ziehen logischer Schlüsse), Metakognition (Wissen, was man nicht weiß — die Stimme im Kopf, die sagt "Moment, bin ich mir sicher?"), und exekutive Funktionen (Planung, Strategiewechsel mitten in einer Aufgabe, auf Kurs bleiben). Zwei sind zusammengesetzt, das heißt, sie erfordern das Zusammenspiel mehrerer Fähigkeiten: Problemlösung und soziale Kognition (Lesen der Absichten und Emotionen anderer Menschen).

Der Schlüsselpunkt ist nicht die Liste selbst. Es ist folgender: Ein System, das in auch nur einer Fähigkeit schwach ist, wird bei realen Aufgaben stolpern. Intelligenz ist keine einzelne Highscore-Zahl. Sie ist ein Profil über alle zehn Dimensionen. Das ist wichtig, weil aktuelle AI-Benchmarks — standardisierte Tests, die in der Branche genutzt werden, um die Intelligenz eines Modells zu messen — nur enge Bereiche abdecken, meist Logik und Problemlösung, und dann den Sieg erklären, wenn die Ergebnisse steigen.

DeepMind schlägt eine dreistufige Bewertung vor: menschliche Baselines aus repräsentativen Bevölkerungsgruppen sammeln, AI-Leistungen mit diesen Verteilungen abgleichen und dann kognitive Profile im Radar-Chart-Stil erzeugen — denk an ein Spinnennetzdiagramm, bei dem jeder Strahl eine Fähigkeit ist. Keine einzige Punktzahl. Kein "übertrifft Menschen in allem". Nur ein ehrliches Bild der Stärken und Schwächen.

Hier kommt der unbequeme Teil. Aktuelle LLMs — große Sprachmodelle, die Technologie hinter ChatGPT, Claude und Gemini — schneiden gut in fünf Fähigkeiten ab: Wahrnehmung, Generation, Gedächtnis, Logik und Problemlösung. Das sind genau die Bereiche, die bestehende Benchmarks bereits abdecken. Die anderen fünf — Lernen, Metakognition, Aufmerksamkeit, exekutive Funktionen, soziale Kognition — haben überhaupt keine zuverlässigen Benchmarks. Wir können nicht testen, ob AI sie hat, weil niemand die Tests gebaut hat.

DeepMinds Lösung: Crowdsourcing. Sie haben einen Wettbewerb über 200.000 Dollar auf Kaggle gestartet — eine Plattform, auf der sich Datenwissenschaftler messen, um Probleme zu lösen — der bis zum 16. April läuft. Die Herausforderung: Evaluationen für die fünf unbekannten Fähigkeiten entwerfen. Zwei Gewinner pro Track erhalten 10.000 Dollar. Vier Hauptpreisgewinner erhalten 25.000 Dollar. Ergebnisse erscheinen am 1. Juni.

Kluger Schachzug. Aber es zeigt auch, wie tief das Loch ist. Die Hälfte dessen, was Intelligenz "allgemein" macht, sitzt in einem Messvakuum. Wenn ein AI-Labor behauptet, ihr Modell nähert sich AGI, bewerten sie anhand eines Tests, der 50% des Materials abdeckt. Das ist wie sich als Arzt zu bezeichnen, nachdem man fünf von zehn Prüfungen bestanden hat.

Es gibt berechtigte Kritikpunkte. Die Kognitionswissenschaft selbst diskutiert, ob Intelligenz sich sauber in Kategorien unterteilen lässt — menschliche Gehirne sind unordentlich, und saubere Taxonomien passen möglicherweise nicht zur Realität. Menschliche Baselines werden über Demografien und Kulturen variieren. Und die zynische Lesart schreibt sich von selbst: Google veröffentlicht einen Rahmen, der auf Bereiche verweist, in denen niemand Daten hat, um bequem Zeit zu gewinnen, bevor Konkurrenten AGI zu den Bedingungen anderer beanspruchen.

Aber für dich — die Person, die wöchentlich AGI-Schlagzeilen aufnimmt — dieser Rahmen fungiert als Bullshit-Filter. Das nächste Mal, wenn ein CEO ankündigt "wir sind zu 90% auf dem Weg zu AGI", frag: 90% in welchen Fähigkeiten? Hat das Modell Metakognition? Kann es aus einem einzigen Beispiel lernen, so wie ein Kleinkind "heiß" lernt, indem es einmal eine heiße Herdplatte berührt? Kann es drei Schritte vorausplanen und den Plan verwerfen, wenn Schritt eins scheitert?

AGI war früher eine philosophische Frage — Sessel-Debatten über Bewusstsein, Empfindungsvermögen und Chinesische Zimmer. Vor zwölf Tagen hat DeepMind es zu einem Messproblem gemacht. Das löst es nicht. Aber es ist der Unterschied zwischen der Diskussion, ob ein Berg existiert, und dem Herausziehen einer topografischen Karte mit Höhenmarkierungen.

Aktuelle Modelle erreichen 5 von 10 Punkten. Die restlichen fünf sind der schwierige Teil. Zumindest gibt es jetzt einen Scorecard — und jeder macht denselben Test.

DeepMind hat einen AGI-Scorecard entwickelt – und aktuelle Modelle bestehen nur die Hälfte

Keep reading

Open Source AI holt schneller auf, als du denkst

Warum die meisten AI-Startups 2026 scheitern werden

Der Berechtigungsdialog deines Agenten ist ein Placebo

MCP funktioniert ueberall — bis du dich authentifizieren musst