Quand tu choisis un outil IA — ChatGPT, Claude, Gemini — tu compares les benchmarks, les scores, les tarifs, les fonctionnalités. Chaque grand labo publie une fiche modèle expliquant ce que le modèle sait faire, comment il a été testé, et où il pèche. Chaque labo, sauf un.
Il y a une métrique que personne ne regarde quand il s'agit de choisir un fournisseur IA : est-ce que les gens qui ont réellement construit le modèle bossent encore là-bas. Il s'avère que ça compte plus que n'importe quel score de benchmark.
La métrique que personne ne suit
On a déjà couvert l'hémorragie de talents chez xAI en détail : les 11 co-fondateurs partis avant le 28 mars, le CFO envolé au bout de six mois, plus de 25 cadres supérieurs perdus en un an — dont 11 ingénieurs seniors qui ont démissionné la même semaine en février. Mais les départs en eux-mêmes ne sont plus le sujet. Le sujet, c'est ce qui est parti avec eux.
Le savoir institutionnel ne se git-clone pas
Le développement d'un modèle IA repose sur le savoir institutionnel — cette compréhension accumulée des choix de données d'entraînement, des compromis d'architecture et des modes de défaillance qui vit dans la tête des gens, pas dans les commentaires du code. Quand le responsable du pretraining Manuel Kroiss s'en va, ses successeurs héritent d'une codebase sans contexte. Ils peuvent lire les fichiers de config. Ils ne peuvent pas lire le raisonnement qui explique pourquoi ces configs précises existent, quelles impasses l'équipe a déjà explorées, quels choix d'hyperparamètres étaient structurellement porteurs.
Ce n'est pas un problème de recrutement. C'est un problème épistémologique. La connaissance du pourquoi un modèle se comporte comme il le fait vit dans la tête de l'équipe qui l'a construit. Tu perds l'équipe, tu perds le pourquoi. Ce qui reste, c'est un système qui marche jusqu'au jour où il ne marche plus — et plus personne ne sait comment le réparer.
Selon mon estimation prudente, le développement d'un modèle fonctionne sur une boucle de feedback de 6 à 18 mois. Les nouveaux chercheurs doivent absorber l'infrastructure d'entraînement existante, reproduire les résultats antérieurs et itérer avant de pouvoir livrer des améliorations. Les effets complets de l'exode chez xAI ne se manifesteront pas avant fin 2026. Mais les premiers signaux sont déjà là.
Honteusement bas
Michael Nicolls — ancien SVP de Starlink chez SpaceX devenu nouveau président d'xAI — a apparemment compris. Dans une note interne rapportée par Business Insider le 18 avril, il a dit au personnel qu'xAI est "clairement derrière" la concurrence et que la performance de calcul est "honteusement basse". Le chiffre concret : le MFU (Model FLOPs Utilization — l'efficacité réelle avec laquelle les GPU croquent des nombres) stagne autour de 11 %. La moyenne de l'industrie tourne entre 35 et 45 %.
Le cluster Colossus d'xAI et ses 555 000 GPU constituent la plus grande installation d'entraînement au monde. À 11 % de MFU, la majorité de cette puissance de calcul produit essentiellement de la chaleur. Le matériel n'est pas le goulot d'étranglement. Les gens qui savaient s'en servir sont partis.
Musk lui-même a posté le 13 mars : "xAI n'a pas été bien construite du premier coup, elle est en cours de reconstruction depuis les fondations." Et aussi : "Beaucoup de personnes talentueuses ces dernières années se sont vu refuser une offre ou même un entretien @xAI. Mes excuses." Un aveu rare de la part d'un homme qui ne fait pas dans les excuses.
Soixante milliards de raisons de s'inquiéter
L'argent n'est pas le frein. SpaceX a acquis xAI le 2 février dans un deal en actions valorisant l'entité combinée à 1 250 milliards de dollars. Puis le 21 avril — il y a deux jours — xAI a conclu un accord avec Anysphere, créateur de l'éditeur de code Cursor, pour soit une option d'acquisition à 60 milliards de dollars, soit des frais de collaboration de 10 milliards.
Ce chiffre mérite une pause. Soixante milliards pour un éditeur de code IA, ce n'est pas un pari produit — c'est un jeu de distribution. xAI a besoin de canaux qui démontrent les capacités du modèle sans s'appuyer sur des benchmarks qu'elle est incapable de publier. Les millions de développeurs de Cursor donneraient à Grok un public captif qui évalue à l'usage, pas au classement. C'est un contournement malin du problème de vérification : si tu ne peux pas prouver sur le papier que ton modèle est bon, intègre-le là où les gens l'utilisent et espère que l'expérience parle d'elle-même.
Mais la distribution ne corrige pas le modèle sous-jacent. Tu peux mettre Grok dans chaque IDE de la planète. Si une équipe disparue a entraîné les poids et que les successeurs tournent à 11 % d'efficacité de calcul, qu'est-ce que ces développeurs évaluent exactement ? L'accord Cursor ressemble moins à un investissement stratégique qu'à l'achat d'une boutique avant d'avoir du stock.
Le vide de vérification
On a couvert le silence documentaire d'xAI il y a trois jours — aucune fiche modèle depuis plus de cinq mois, Grok 4.3 lancé le 17 avril sans benchmarks indépendants, Grok 5 qui a raté sa deadline Q1 sans calendrier mis à jour. Le schéma tient : plus d'argent, moins de preuves.
Ce que ça signifie pour toi
La prochaine fois que tu évalues des outils IA, regarde au-delà du tableau de benchmarks. Vérifie qui a construit le modèle — et si ces personnes sont encore là pour déboguer les pannes en production, livrer les correctifs de sécurité ou sortir la prochaine version dans les temps. Les scores que tu compares aujourd'hui ont été produits par une équipe qui n'existe peut-être plus.
En IA, le modèle c'est l'équipe. xAI a gardé les GPU et perdu les cerveaux. Un demi-million de puces au repos n'écrivent pas de fiches modèle.




