Cuando eliges una herramienta de IA — ChatGPT, Claude, Gemini — comparas benchmarks, puntajes, precios, funcionalidades. Cada laboratorio importante publica un model card explicando qué puede hacer el modelo, cómo lo evaluaron y dónde falla. Todos los laboratorios, menos uno.
Hay una métrica que nadie rastrea al elegir un proveedor de IA: si la gente que realmente construyó el modelo sigue trabajando ahí. Resulta que eso importa más que cualquier puntaje de benchmark.
La métrica que nadie rastrea
Ya cubrimos en detalle la hemorragia de talento de xAI: los 11 cofundadores se fueron antes del 28 de marzo, el CFO renunció a los seis meses, más de 25 figuras senior perdidas en un año — incluyendo 11 ingenieros senior que renunciaron en una sola semana de febrero. Pero las renuncias en sí ya no son la historia. La historia es lo que se fue con ellos.
El conocimiento institucional no se clona con git
El desarrollo de modelos de IA depende del conocimiento institucional — la comprensión acumulada sobre decisiones de datos de entrenamiento, trade-offs de arquitectura y modos de falla que vive en la cabeza de las personas, no en comentarios del código. Cuando el líder de preentrenamiento Manuel Kroiss se va, los sucesores heredan un codebase sin contexto. Pueden leer los archivos de configuración. No pueden leer el razonamiento detrás de por qué esas configuraciones específicas existen, qué callejones sin salida el equipo ya exploró, qué decisiones de hiperparámetros eran estructuralmente críticas.
Esto no es un problema de personal. Es un problema epistemológico. El conocimiento de por qué un modelo se comporta como se comporta vive en las cabezas del equipo que lo construyó. Pierdes al equipo, pierdes el porqué. Lo que queda es un sistema que funciona hasta que deja de funcionar — y ya no queda nadie que sepa cómo arreglarlo.
Según mi estimación conservadora, el desarrollo de modelos opera en ciclos de retroalimentación de 6 a 18 meses. Los nuevos investigadores deben absorber la infraestructura de entrenamiento existente, reproducir resultados anteriores e iterar antes de poder lanzar mejoras. Los efectos completos del éxodo de xAI no se van a notar hasta finales de 2026. Pero los indicadores tempranos ya están aquí.
Vergonzosamente bajo
Michael Nicolls — ex SVP de Starlink en SpaceX convertido en nuevo presidente de xAI — aparentemente lo entiende. En un memo interno reportado por Business Insider el 18 de abril, le dijo al personal que xAI está "claramente detrás" de los competidores y que el rendimiento de cómputo es "vergonzosamente bajo". El número específico: MFU (Model FLOPs Utilization — qué tan eficientemente las GPUs procesan números) está en aproximadamente 11%. El promedio de la industria va de 35 a 45%.
El clúster Colossus de xAI con 555,000 GPUs es la instalación de entrenamiento individual más grande del planeta. Con 11% de MFU, la mayor parte de ese cómputo básicamente genera calor. El hardware no es el cuello de botella. La gente que sabía cómo usarlo ya no está.
El propio Musk publicó el 13 de marzo: "xAI no se construyó bien la primera vez, así que se está reconstruyendo desde los cimientos". También: "A muchas personas talentosas en los últimos años se les negó una oferta o incluso una entrevista en @xAI. Mis disculpas". Una admisión poco común de un hombre que no acostumbra pedir perdón.
Sesenta mil millones de razones para preocuparte
El dinero no es la limitante. SpaceX adquirió xAI el 2 de febrero en un acuerdo en acciones valorando la entidad combinada en 1.25 billones de dólares. Luego, el 21 de abril — hace dos días — xAI cerró un acuerdo con Anysphere, creadores del editor de código Cursor, por una opción de adquisición de 60 mil millones de dólares o una tarifa de colaboración de 10 mil millones.
Ese número merece una pausa. Sesenta mil millones por un editor de código con IA no es una apuesta de producto — es una jugada de distribución. xAI necesita canales que demuestren la capacidad del modelo sin depender de benchmarks que no puede publicar. Los millones de desarrolladores de Cursor le darían a Grok una audiencia cautiva que evalúa por uso, no por posición en un ranking. Es un bypass inteligente del problema de verificación: si no puedes demostrar que tu modelo es bueno en papel, incrústalo donde la gente lo use y reza para que la experiencia hable por sí sola.
Pero la distribución no arregla el modelo subyacente. Puedes meter a Grok en cada IDE del planeta. Si un equipo que ya no está entrenó los pesos y los sucesores operan al 11% de eficiencia de cómputo, ¿qué exactamente están evaluando esos desarrolladores? El acuerdo con Cursor se lee menos como una inversión estratégica y más como comprar un local comercial antes de tener inventario.
El vacío de verificación
Cubrimos el silencio documental de xAI hace tres días — ningún model card en más de cinco meses, Grok 4.3 se lanzó el 17 de abril sin benchmarks independientes, Grok 5 no cumplió su fecha límite del Q1 sin un cronograma actualizado. El patrón se mantiene: más dinero, menos comprobantes.
Qué significa esto para ti
La próxima vez que evalúes herramientas de IA, mira más allá de la tabla de benchmarks. Revisa quién construyó el modelo — y si todavía están ahí para resolver fallas en producción, lanzar parches de seguridad o entregar la siguiente versión a tiempo. Los puntajes que estás comparando hoy los generó un equipo que posiblemente ya no existe.
En IA, el modelo es el equipo. xAI se quedó con las GPUs y perdió a las personas. Medio millón de chips ociosos no escriben model cards.




