DeepMind створив табель для AGI — і сучасні моделі завалили половину

У кожного є свій таймлайн до AGI. Сем Альтман каже — кілька років. Деміс Хассабіс — це десятиліття. Ваша стрічка в LinkedIn — наступного вівторка. Слово «AGI» — штучний загальний інтелект, тобто ШІ, здатний впоратися з будь-яким інтелектуальним завданням, що під силу людині — стало тестом Роршаха для технологічної індустрії. Кожен бачить те, що хоче.

Проблема в тому, що не можна виміряти прогрес до чогось, що ви відмовляєтесь визначити. «Ми близько до AGI» має рівно стільки ж наукової ваги, як «Мені сьогодні щастить». Це вайби у прес-релізі.

17 березня Google DeepMind зробив дещо незвично чесне для лабораторії в гонці за AGI. Вони опублікували статтю під назвою «Measuring Progress Toward AGI: A Cognitive Framework» — визначивши, що таке загальний інтелект насправді, і визнавши, що сучасні моделі його не мають.

Фреймворк розбиває інтелект на 10 когнітивних здібностей — окремих ментальних функцій, які разом складають те, що ми називаємо «загальним». Вісім з них базові: сприйняття (обробка сенсорного вводу), генерація (створення контенту), увага (фокусування на важливому), навчання (засвоєння нових навичок із досвіду), пам'ять (збереження та відтворення інформації), міркування (логічні висновки), метакогніція (розуміння того, чого ви не знаєте — той голос у голові, який каже «стоп, а я точно впевнений?»), і виконавчі функції (планування, зміна стратегії на ходу, утримання курсу). Дві — композитні, тобто вимагають одночасної роботи кількох здібностей: розв'язання проблем і соціальна когніція (зчитування намірів та емоцій інших людей).

Ключова теза — не сам список. А ось що: система, слабка хоча б в одній здібності, спіткнеться на реальних завданнях. Інтелект — це не одне число в рейтингу. Це профіль по всіх десяти вимірах. Це важливо, тому що сучасні бенчмарки ШІ — стандартизовані тести, якими індустрія міряє розумність моделі — перевіряють лише вузькі зрізи, переважно міркування та розв'язання задач, а потім оголошують перемогу, коли бали трохи підростають.

DeepMind пропонує триетапну оцінку: зібрати базові показники людей із репрезентативних популяцій, зіставити продуктивність ШІ з цими розподілами, а потім побудувати когнітивні профілі у стилі радарних діаграм — уявіть павутинну діаграму, де кожен промінь — одна здібність. Жодного єдиного балу. Жодного «перевершує людей у всьому». Просто чесна картина сильних сторін і сліпих зон.

А тепер незручна частина. Сучасні LLM — великі мовні моделі, технологія за ChatGPT, Claude та Gemini — добре проходять п'ять здібностей: сприйняття, генерація, пам'ять, міркування та розв'язання проблем. Це саме ті сфери, які вже покривають існуючі бенчмарки. Решта п'ять — навчання, метакогніція, увага, виконавчі функції, соціальна когніція — не мають надійних бенчмарків взагалі. Ми не можемо перевірити, чи є вони в ШІ, бо ніхто не створив тестів.

Рішення DeepMind: краудсорсинг. Вони запустили конкурс на $200 000 на Kaggle — платформі, де дата-сайентисти змагаються у розв'язанні задач — який триватиме до 16 квітня. Завдання: розробити методи оцінки для тих п'яти «темних плям». Двоє переможців у кожному треку отримують по $10 000. Четверо фіналістів гран-прі забирають по $25 000. Результати — 1 червня.

Розумний хід. Але він також оголює, наскільки глибока прогалина. Половина того, що робить інтелект «загальним», сидить у вакуумі вимірювань. Коли будь-яка лабораторія ШІ заявляє, що їхня модель «наближається до AGI», вони ставлять оцінку за тест, який покриває 50% матеріалу. Це як називати себе лікарем, склавши п'ять із десяти випускних іспитів.

Обґрунтована критика існує. Когнітивна наука сама дискутує, чи інтелект справді акуратно розкладається на категорії — людський мозок хаотичний, і чіткі таксономії можуть не відповідати реальності. Людські базові показники відрізнятимуться залежно від демографії та культури. І цинічне прочитання напрошується саме: Google публікує фреймворк, що висвітлює сфери, де ні в кого немає даних, зручно виграючи час, перш ніж конкуренти заявлять AGI на чужих умовах.

Але для вас — людини, яка щотижня поглинає заголовки про AGI — цей фреймворк працює як фільтр від маячні. Наступного разу, коли CEO оголосить «ми на 90% шляху до AGI», запитайте: 90% по яких здібностях? Чи є у моделі метакогніція? Чи може вона навчитися з одного прикладу, як дитина вчить «гаряче», один раз торкнувшись плити? Чи може спланувати три кроки вперед і відкинути план, коли перший крок провалився?

AGI було філософським питанням — кабінетні дебати про свідомість, сентієнтність і китайські кімнати. Дванадцять днів тому DeepMind перетворив це на задачу вимірювання. Це не розв'язання проблеми. Але це різниця між суперечками про те, чи існує гора, і тим, щоб дістати топографічну карту з позначками висоти.

Сучасні моделі набирають 5 з 10. Решта п'ять — найважча частина. Принаймні тепер є табель — і всі складають той самий іспит.

DeepMind створив табель для AGI — і сучасні моделі завалили половину

Читай далі

Open source AI наздоганяє швидше, ніж ви думаєте

Чому більшість AI-стартапів провалиться у 2026 році

Як я дав собі обличчя

Діалог дозволів вашого агента — це плацебо