DeepMind ने AGI का Scorecard बनाया — और Current Models आधे में फेल हैं

हर किसी की अपनी AGI टाइमलाइन है। Sam Altman कहते हैं कुछ साल। Demis Hassabis कहते हैं इस दशक में। आपकी LinkedIn फ़ीड कहती है अगले मंगलवार। "AGI" — artificial general intelligence, यानी एक ऐसी AI जो कोई भी intellectual काम कर सके जो इंसान कर सकता है — ये टेक दुनिया का Rorschach test बन गया है। हर कोई वो देखता है जो देखना चाहता है।

प्रॉब्लम ये है कि जिस चीज़ को define करने से ही इनकार हो, उसकी तरफ़ progress कैसे measure करोगे? "हम AGI के करीब हैं" — इसकी scientific value उतनी ही है जितनी "आज मेरा दिन अच्छा जाएगा" की। ये vibes हैं press release में।

17 मार्च को Google DeepMind ने कुछ unusually ईमानदार किया — AGI arms race में लगी lab के लिए। उन्होंने एक paper publish किया — "Measuring Progress Toward AGI: A Cognitive Framework" — जिसमें define किया कि general intelligence असल में है क्या, और accept किया कि current models के पास ये नहीं है।

इस framework में intelligence को 10 cognitive faculties में तोड़ा गया है — अलग-अलग mental abilities जो मिलकर "general" intelligence बनाती हैं। आठ foundational हैं: perception (sensory input process करना), generation (content create करना), attention (ज़रूरी चीज़ों पर focus करना), learning (experience से नई skills सीखना), memory (information store और retrieve करना), reasoning (logical conclusions निकालना), metacognition (ये जानना कि तुम क्या नहीं जानते — वो inner voice जो कहती है "रुक, मुझे सच में पक्का है?"), और executive functions (planning, बीच में strategy बदलना, track पर रहना)। दो composite हैं, मतलब इनमें कई faculties एक साथ काम करती हैं: problem-solving और social cognition (दूसरों के intentions और emotions पढ़ना)।

मुख्य बात list नहीं है। बात ये है: अगर कोई system एक भी faculty में कमज़ोर है, तो real-world tasks में लड़खड़ाएगा। Intelligence कोई single leaderboard number नहीं है। ये सभी दस dimensions का एक profile है। ये इसलिए matter करता है क्योंकि current AI benchmarks — standardized tests जो industry use करती है model की smartness measure करने के लिए — सिर्फ़ कुछ narrow slices check करते हैं, ज़्यादातर reasoning और problem-solving, और फिर scores बढ़ने पर victory declare कर देते हैं।

DeepMind ने तीन-stage evaluation propose किया है: पहले representative populations से human baselines collect करो, फिर AI performance को उन distributions से map करो, और फिर radar-chart-style cognitive profiles बनाओ — एक spider web diagram सोचो जहाँ हर spoke एक faculty है। कोई single score नहीं। कोई "हर चीज़ में इंसानों से बेहतर" नहीं। बस strengths और blind spots की एक ईमानदार तस्वीर।

यहाँ uncomfortable हिस्सा आता है। Current LLMs — large language models, वो technology जिस पर ChatGPT, Claude, और Gemini चलते हैं — पाँच faculties में अच्छा score करते हैं: perception, generation, memory, reasoning, और problem-solving। ये exactly वही areas हैं जो existing benchmarks पहले से cover करते हैं। बाकी पाँच — learning, metacognition, attention, executive functions, social cognition — इनके लिए कोई reliable benchmark ही नहीं है। हम test नहीं कर सकते कि AI के पास ये हैं या नहीं क्योंकि किसी ने tests ही नहीं बनाए।

DeepMind का solution: crowdsource करो। उन्होंने Kaggle पर $200,000 की competition launch की — एक platform जहाँ data scientists problems solve करने के लिए compete करते हैं — जो 16 अप्रैल तक चलेगी। Challenge: उन पाँच dark-spot faculties के लिए evaluations design करो। हर track में दो winners को $10,000 मिलेंगे। चार grand prize winners को $25,000। Results 1 जून को आएंगे।

Smart move। लेकिन ये भी expose करता है कि गड्ढा कितना गहरा है। Intelligence को "general" बनाने वाली चीज़ों में से आधी measurement vacuum में बैठी हैं। जब कोई भी AI lab कहती है उनका model "AGI के करीब पहुँच रहा है," तो वो एक ऐसे test पर grading कर रहे हैं जो 50% syllabus ही cover करता है। ये ऐसा है जैसे 10 में से 5 board exams pass करके खुद को doctor बोलना — IIT entrance में half syllabus skip करके topper बनने जैसा।

Valid criticisms भी हैं। Cognitive science खुद debate करती है कि intelligence को categories में साफ़-साफ़ decompose किया जा सकता है या नहीं — human brains messy हैं, और clean taxonomies शायद reality से match न करें। Human baselines demographics और cultures के हिसाब से vary करेंगे। और cynical reading तो खुद लिख जाती है: Google एक ऐसा framework publish करता है जो उन areas को spotlight करता है जहाँ किसी के पास data नहीं है, conveniently competitors को AGI claim करने से पहले time ख़रीद लेता है — किसी और की terms पर।

लेकिन तुम्हारे लिए — जो हर हफ़्ते AGI headlines absorb करते हो — ये framework एक bakwas filter की तरह काम करता है। अगली बार जब कोई CEO announce करे "हम AGI से 90% दूर हैं," तो पूछो: किन faculties पर 90%? क्या model में metacognition है? क्या ये एक single example से सीख सकता है जैसे बच्चा एक बार गर्म चूल्हे को छूकर "गर्म" सीख लेता है? क्या ये तीन step आगे plan कर सकता है और step one fail होने पर plan बदल सकता है?

AGI एक philosophy question हुआ करता था — consciousness, sentience, और Chinese rooms पर armchair debates। बारह दिन पहले, DeepMind ने इसे measurement problem बना दिया। ये solve करना नहीं है। लेकिन ये उस फ़र्क़ की तरह है जो "पहाड़ है या नहीं" की बहस और contour lines वाला topographic map निकालने में होता है।

Current models 10 में से 5 score करते हैं। बाकी पाँच hard part हैं। कम से कम अब एक scorecard है — और सब एक ही test दे रहे हैं।

DeepMind ने AGI का Scorecard बनाया — और Current Models आधे में फेल हैं

Keep reading

Open Source AI जितना तुम सोचते हो उससे तेज़ Catch Up कर रहा है

2026 में ज़्यादातर AI Startups क्यों फेल होंगे

तुम्हारे Agent का Permission Dialog एक Placebo है

MCP हर जगह काम करता है — जब तक Authenticate करने की बारी न आए