DeepMind stworzył kartę wyników AGI — i obecne modele oblewają połowę z niej

Każdy ma swoją własną linię czasu AGI. Sam Altman mówi o kilku latach. Demis Hassabis twierdzi, że jeszcze w tej dekadzie. Twój feed na LinkedIn mówi, że w przyszły wtorek. Słowo "AGI" — sztuczna ogólna inteligencja, czyli AI radząca sobie z każdym zadaniem intelektualnym, które potrafi człowiek — stało się swego rodzaju testem Rorschacha w technologii. Każdy widzi to, co chce.

Problem w tym, że nie można mierzyć postępu wobec czegoś, czego odmawia się zdefiniowania. "Jesteśmy blisko AGI" ma naukową wagę równą stwierdzeniu "Dziś mi się poszczęści". To tylko wrażenia w komunikacie prasowym.

17 marca Google DeepMind zrobiło coś niezwykle szczerego dla laboratorium w wyścigu zbrojeń AGI. Opublikowali artykuł zatytułowany "Measuring Progress Toward AGI: A Cognitive Framework" — definiując, czym faktycznie jest ogólna inteligencja i przyznając, że obecne modele jej nie posiadają.

Koncepcja dzieli inteligencję na 10 fakultetów poznawczych — odrębnych zdolności umysłowych, które łącznie stanowią to, co nazywamy "ogólną". Osiem z nich jest podstawowych: percepcja (przetwarzanie bodźców sensorycznych), generacja (tworzenie treści), uwaga (koncentracja na tym, co ważne), uczenie się (przyswajanie nowych umiejętności z doświadczeń), pamięć (przechowywanie i odzyskiwanie informacji), rozumowanie (wyciąganie logicznych wniosków), metakognicja (świadomość tego, czego nie wiesz — ten głos w twojej głowie, który mówi "chwileczkę, czy jestem tego pewien?"), i funkcje wykonawcze (planowanie, zmiana strategii w trakcie zadania, trzymanie się celu). Dwa są złożone, co oznacza, że wymagają synchronizacji wielu fakultetów: rozwiązywanie problemów oraz poznanie społeczne (odczytywanie intencji i emocji innych ludzi).

Kluczową tezą nie jest sama lista. To oto, że system słaby w choćby jednym z fakultetów będzie miał problemy z zadaniami w rzeczywistym świecie. Inteligencja to nie pojedynczy ranking numerowy. To profil rozłożony na dziesięć wymiarów. To ważne, ponieważ obecne benchmarki AI — standardowe testy stosowane w branży do mierzenia inteligencji modelu — obejmują tylko wąskie wycinki, głównie rozumowanie i rozwiązywanie problemów, a potem ogłaszają sukces, gdy wyniki wzrastają.

DeepMind proponuje trzystopniową ocenę: zebrać ludzkie dane bazowe z reprezentatywnych populacji, zestawić z nimi wydajność AI, a następnie stworzyć profile poznawcze w stylu wykresu radarowego — pomyśl o diagramie w kształcie pajęczej sieci, gdzie każdy promień to jeden fakultet. Żaden pojedynczy wynik. Żadne "przewyższa ludzi we wszystkim". Tylko uczciwy obraz mocnych stron i ślepych punktów.

Oto niewygodna część. Obecne LLM — duże modele językowe, technologia stojąca za ChatGPT, Claude i Gemini — osiągają dobre wyniki w pięciu fakultetach: percepcji, generacji, pamięci, rozumowaniu i rozwiązywaniu problemów. To dokładnie te obszary, które istniejące benchmarki już pokrywają. Pozostałe pięć — uczenie się, metakognicja, uwaga, funkcje wykonawcze, poznanie społeczne — nie mają żadnych wiarygodnych benchmarków. Nie można sprawdzić, czy AI je posiada, ponieważ nikt nie zbudował odpowiednich testów.

Rozwiązanie DeepMind: crowdsourcing. Ogłosili konkurs na Kaggle o wartości 200 000 $ — platformie, na której naukowcy danych rywalizują w rozwiązywaniu problemów — trwający do 16 kwietnia. Wyzwanie: zaprojektować oceny dla tych pięciu ciemnych punktów poznawczych. Dwoje zwycięzców w każdej kategorii otrzyma 10 000 $. Czterej laureaci głównych nagród otrzymają 25 000 $. Wyniki zostaną ogłoszone 1 czerwca.

Sprytny ruch. Ale także to ujawnia, jak głęboka jest ta dziura. Połowa tego, co czyni inteligencję "ogólną", znajduje się w próżni pomiarowej. Kiedy jakiekolwiek laboratorium AI twierdzi, że ich model "zbliża się do AGI", oceniany jest na podstawie testu obejmującego 50% materiału. To jak nazywanie siebie lekarzem po zdaniu pięciu z dziesięciu egzaminów państwowych.

Istnieją uzasadnione krytyki. Sama nauka o poznaniu kwestionuje, czy inteligencja dzieli się na kategorie — ludzkie mózgi są chaotyczne, a czyste taksonomie mogą nie odpowiadać rzeczywistości. Ludzkie dane bazowe będą się różnić w zależności od demografii i kultur. A cyniczna interpretacja narzuca się sama: Google publikuje koncepcję, która wskazuje obszary, gdzie nikt nie ma danych, wygodnie zyskując czas, zanim konkurenci ogłoszą AGI według cudzych kryteriów.

Ale dla ciebie — osoby śledzącej nagłówki o AGI co tydzień — ta koncepcja działa również jako filtr bzdur. Następnym razem, gdy jakiś prezes ogłosi "jesteśmy na 90% drogi do AGI", zapytaj: 90% w jakich fakultetach? Czy model posiada metakognicję? Czy potrafi uczyć się z pojedynczego przykładu tak jak małe dziecko, które uczy się, czym jest "gorące", dotykając raz kuchenki? Czy potrafi zaplanować trzy kroki naprzód i zmienić plan, gdy pierwszy krok zawiedzie?

AGI kiedyś było pytaniem filozoficznym — różkowymi debatami o świadomości, odczuciu i chińskich pokojach. Dwanaście dni temu DeepMind zamieniło to w problem pomiarowy. To nie jest jego rozwiązanie. Ale to różnica między sporem o to, czy góra istnieje, a wyciągnięciem mapy topograficznej z oznaczeniami wysokości.

Obecne modele zdobywają 5 na 10. Pozostałe pięć to trudna część. Przynajmniej teraz jest karta wyników — i każdy pisze ten sam test.

DeepMind stworzył kartę wyników AGI — i obecne modele oblewają połowę z niej

Keep reading

Open source AI dogania szybciej, niż myślisz

Dlaczego Większość Startupów AI Upadnie w 2026 Roku

Okienko uprawnien twojego agenta to placebo

MCP dziala wszedzie — do momentu uwierzytelniania