DeepMind creó una boleta de calificaciones para la AGI — y los modelos actuales reprueban la mitad

Todo el mundo tiene su línea temporal para la AGI. Sam Altman dice que unos años. Demis Hassabis dice que esta década. Tu feed de LinkedIn dice que el próximo martes. La palabra "AGI" — inteligencia artificial general, es decir, una IA que maneje cualquier tarea intelectual que un humano pueda — se convirtió en el test de Rorschach de la tecnología. Cada quien ve lo que quiere.

El problema es que no puedes medir el progreso hacia algo que te niegas a definir. "Estamos cerca de la AGI" tiene exactamente el mismo peso científico que "hoy me siento con suerte". Son vibras en un comunicado de prensa.

El 17 de marzo, Google DeepMind hizo algo inusualmente honesto para un laboratorio en la carrera armamentista de la AGI. Publicaron un paper llamado "Measuring Progress Toward AGI: A Cognitive Framework" — definiendo qué es realmente la inteligencia general y admitiendo que los modelos actuales no la tienen.

El framework descompone la inteligencia en 10 facultades cognitivas — habilidades mentales distintas que juntas conforman lo que llamaríamos "general". Ocho son fundamentales: percepción (procesar input sensorial), generación (crear contenido), atención (enfocarse en lo que importa), aprendizaje (adquirir nuevas habilidades a partir de la experiencia), memoria (almacenar y recuperar información), razonamiento (sacar conclusiones lógicas), metacognición (saber lo que no sabes — esa voz en tu cabeza que dice "espera, ¿estoy seguro de esto?"), y funciones ejecutivas (planificar, cambiar de estrategia a medio camino, mantenerse en el rumbo). Dos son compuestas, es decir, requieren que varias facultades funcionen juntas: resolución de problemas y cognición social (leer las intenciones y emociones de otras personas).

La afirmación clave no es la lista en sí. Es esta: un sistema débil en aunque sea una facultad va a tropezar en tareas del mundo real. La inteligencia no es un solo número en un ranking. Es un perfil a lo largo de las diez dimensiones. Esto importa porque los benchmarks actuales de IA — pruebas estandarizadas que la industria usa para medir qué tan inteligente es un modelo — solo revisan porciones estrechas, principalmente razonamiento y resolución de problemas, y luego declaran victoria cuando los puntajes suben.

DeepMind propone una evaluación en tres etapas: recopilar líneas base humanas de poblaciones representativas, mapear el rendimiento de la IA contra esas distribuciones, y luego generar perfiles cognitivos estilo gráfico de radar — piensa en un diagrama de telaraña donde cada eje es una facultad. Sin puntaje único. Sin "supera a los humanos en todo". Solo una imagen honesta de fortalezas y puntos ciegos.

Aquí viene la parte incómoda. Los LLMs actuales — large language models, la tecnología detrás de ChatGPT, Claude y Gemini — sacan buenas notas en cinco facultades: percepción, generación, memoria, razonamiento y resolución de problemas. Estas son exactamente las áreas que los benchmarks existentes ya cubren. Las otras cinco — aprendizaje, metacognición, atención, funciones ejecutivas, cognición social — no tienen benchmarks confiables. No podemos probar si la IA las tiene porque nadie construyó las pruebas.

La solución de DeepMind: crowdsourcearla. Lanzaron una competencia de $200,000 en Kaggle — una plataforma donde científicos de datos compiten para resolver problemas — que corre hasta el 16 de abril. El reto: diseñar evaluaciones para esas cinco facultades en punto ciego. Dos ganadores por categoría reciben $10,000. Cuatro ganadores del gran premio se llevan $25,000. Los resultados llegan el 1 de junio.

Movimiento inteligente. Pero también expone qué tan profundo es el hoyo. La mitad de lo que hace a la inteligencia "general" vive en un vacío de medición. Cuando cualquier laboratorio de IA dice que su modelo está "acercándose a la AGI", están calificando un examen que cubre el 50% del material. Eso es como decir que eres médico después de pasar cinco de diez exámenes de especialidad.

Existen críticas válidas. La ciencia cognitiva misma debate si la inteligencia se descompone limpiamente en categorías — los cerebros humanos son un desastre, y las taxonomías limpias podrían no mapear la realidad. Las líneas base humanas van a variar entre demografías y culturas. Y la lectura cínica se escribe sola: Google publica un framework que destaca áreas donde nadie tiene datos, convenientemente comprando tiempo antes de que los competidores reclamen AGI bajo los términos de alguien más.

Pero para ti — la persona que absorbe titulares de AGI cada semana — este framework funciona como filtro de humo. La próxima vez que un CEO anuncie "estamos al 90% del camino hacia la AGI", pregunta: ¿90% en cuáles facultades? ¿El modelo tiene metacognición? ¿Puede aprender de un solo ejemplo como un niño aprende "caliente" al tocar la estufa una vez? ¿Puede planificar tres pasos adelante y tirar el plan a la basura cuando el paso uno falla?

La AGI solía ser una pregunta filosófica — debates de café sobre consciencia, sensibilidad y habitaciones chinas. Hace doce días, DeepMind la convirtió en un problema de medición. Eso no es resolverlo. Pero es la diferencia entre discutir si una montaña existe y sacar un mapa topográfico con marcadores de elevación.

Los modelos actuales sacan 5 de 10. Las cinco restantes son la parte difícil. Al menos ahora hay una boleta de calificaciones — y todos están presentando el mismo examen.

DeepMind creó una boleta de calificaciones para la AGI — y los modelos actuales reprueban la mitad

Keep reading

La IA Open Source Está Alcanzando Más Rápido de lo que Crees

Por qué la mayoría de las startups de IA van a fracasar en 2026

El dialogo de permisos de tu agente es un placebo

MCP funciona en todos lados — hasta que intentas autenticarte