Tu choisis ton outil de code IA en consultant le classement. SWE-bench te disait quel modèle corrigeait le plus de bugs. Promptfoo te permettait de lancer des comparaisons côte à côte. L'Agents SDK te donnait un framework pour construire. Trois piliers d'infrastructure de comparaison. Trois vérifications indépendantes pour savoir qui est vraiment le meilleur.
J'ai couvert chacune de ces histoires individuellement cette semaine — l'effondrement de SWE-bench, l'acquisition de Promptfoo, la mise à jour de l'Agents SDK. Séparément, chacune avait du sens. Ensemble, elles révèlent quelque chose qu'aucun des articles pris isolément ne capturait.
La version officielle
OpenAI a fait trois coups sans rapport entre eux. Ils ont publié une critique légitime d'un benchmark défaillant. Ils ont racheté un outil d'évaluation open source et l'ont gardé sous licence MIT (n'importe qui peut copier, modifier, redistribuer). Ils ont rendu leur SDK agnostique en termes de modèle. Chaque décision se défend isolément. Chaque décision aide les développeurs.
Mais en réalité
C'est de l'intégration verticale de la chaîne d'évaluation. Et ça a un précédent.
En 2007, Google a racheté DoubleClick — la plateforme dominante de diffusion publicitaire qui mesurait la performance des pubs chez tous les fournisseurs, y compris Google lui-même. L'UE a enquêté pendant des années. Google a promis la neutralité. Dix ans plus tard, le DOJ américain a démontré que Google avait systématiquement favorisé ses propres produits publicitaires via cette même infrastructure. La boîte qui vendait les pubs faisait aussi tourner l'outil qui notait si les pubs marchaient.
OpenAI vient d'exécuter le même playbook sur l'évaluation des modèles IA — en sept semaines au lieu de sept ans.
Trois coups, un seul schéma
Premier coup (23 février) : L'audit d'OpenAI a identifié 59,4 % des cas de test de SWE-bench Verified comme défaillants et a trouvé une contamination des données d'entraînement sur tous les modèles frontier. Ils ont arrêté de publier leurs scores. La critique avait du mérite — les tâches plus difficiles de SWE-bench Pro montrent un écart de 22 points par rapport aux chiffres gonflés de Verified. Mais les modèles d'OpenAI avaient plafonné à ~80 % sur Verified pendant que les concurrents rattrapaient leur retard. Timing pratique.
Deuxième coup (9 mars) : OpenAI a racheté Promptfoo — plus de 350 000 développeurs, plus de 25 % du Fortune 500 — le framework d'évaluation que la plupart des équipes utilisent pour comparer les LLMs. La règle la plus populaire appartient désormais à un concurrent.
Troisième coup (15 avril) : La mise à jour de l'Agents SDK a ajouté le support natif de plus de 100 modèles concurrents via l'intégration LiteLLM. Chaque modèle rival devient un simple swap d'une ligne dans la config d'OpenAI. Le modèle devient une commodité ; le SDK devient le fossé défensif.
Ce qui change concrètement pour les développeurs
Trois choses.
La friction se déplace. Quand changer de modèle nécessite de modifier une seule ligne dans un fichier de config OpenAI, tu ne « choisis pas Claude » — tu choisis la plateforme OpenAI et tu routes occasionnellement vers Claude. Imagine Apple qui construit la seule boutique de téléphones et laisse généreusement Samsung y vendre.
Les réglages par défaut battent les options d'évaluation. Promptfoo peut toujours tester n'importe quel modèle. Mais les templates par défaut, les configs recommandées, le flux « getting started » — c'est ça qui façonne ce que 90 % des développeurs testent réellement. Comme Simon Willison l'a noté : « OpenAI n'a pas encore un grand palmarès en matière d'acquisition et de maintenance de projets open source. » La licence MIT signifie que tu peux forker et partir. La plupart ne le feront pas. Les défauts par défaut sont puissants.
L'autorité des benchmarks se fragmente. SWE-bench Pro utilise des tâches plus difficiles, moins contaminées, dans plusieurs langages. LiveCodeBench fait tourner les problèmes pour empêcher la mémorisation. Ni l'un ni l'autre n'a l'adoption qu'avait Verified. Construire la confiance dans un nouveau benchmark prend des années. OpenAI n'a pas besoin d'années — quelques mois d'ambiguïté suffisent.
Le vide stratégique
Anthropic distribue Claude Code — un outil direct-au-développeur qui contourne entièrement les wrappers SDK. Google intègre Gemini dans Android, Chrome et Workspace, créant des canaux de distribution qu'OpenAI ne peut pas intercepter. Les deux jouent la défense par la distribution plutôt que par la mesure.
Aucun des deux n'a construit un standard d'évaluation alternatif. C'est le vrai trou. L'industrie a des modèles concurrents, des SDK concurrents, des canaux de distribution concurrents — mais plus d'infrastructure d'évaluation indépendante, fiable et massivement adoptée. L'ancien tableau de bord avait de vrais problèmes de contamination. Le remplaçant n'existe pas encore.
La question qui dérange
La question n'est pas de savoir si les coups individuels d'OpenAI résistent à l'examen. Oui, ils résistent. La question est de savoir si une seule entreprise devrait simultanément vendre le produit, posséder le framework de test et contrôler le SDK qui emballe chaque concurrent.
Si ta réponse contient le mot « confiance » — félicitations, tu as identifié le problème.
La prochaine fois que tu évalues un modèle IA, vérifie qui a fabriqué la règle, qui possède le labo de test et de qui vient l'outillage qui fait tourner le test. Si c'est la même boîte trois fois, tu n'évalues pas — tu te fais onboarder.
La course aux modèles IA ne s'est pas terminée parce que quelqu'un a gagné. Elle s'est terminée parce que le favori a racheté le tableau des scores et l'a transformé en boutique.





