Tu ouvres ton IDE, tu pointes l'IA sur un module, tu lâches ' refactorise-moi ça ' et tu pars te faire un café. Vingt minutes plus tard, tu reviens et tu découvres que le fichier 16 a été réécrit d'une manière qui contredit tout ce que l'IA avait décidé dans le fichier 3. Elle a oublié. Encore.

Il y a deux mois et demi, OpenAI a annoncé avoir réglé le problème. GPT-5.2-Codex a été lancé le 14 janvier avec une promesse phare : le context compaction — un agent capable de se souvenir de ce qu'il fait pendant les longues sessions. La communauté dev a collectivement retenu son souffle. On est fin mars, le cycle du hype a fait son tour complet, et on a assez de retour terrain pour poser la seule question qui compte : est-ce que ça marche vraiment ?

Le pitch était séduisant. Toute IA a une fenêtre de contexte — sa mémoire de travail, la quantité de texte qu'elle peut ' voir ' en même temps. Pendant une longue session de code, cette fenêtre se remplit. Quand elle déborde, le modèle oublie les décisions précédentes et commence à se contredire. Le context compaction permet à GPT-5.2-Codex de compresser intelligemment le contenu de cette fenêtre — en gardant l'essentiel, en éliminant le bruit. En théorie, c'est la différence entre un agent qui gère une tâche de 30 minutes et un autre qui survit à un marathon de refactoring de 3 heures sans amnésie.

OpenAI a aussi intégré la détection de failles de sécurité — le modèle repère les vulnérabilités pendant la génération du code, pas comme une étape de scan séparée. Sur les benchmarks, GPT-5.2-Codex a décroché les meilleurs scores sur SWE-Bench Pro et Terminal-Bench 2.0. Le support Windows a aussi eu droit à un coup de boost, ce qui n'a pris que... quelques années.

Voilà ce que deux mois d'utilisation en prod ont montré. Le context compaction fonctionne — partiellement. Pour les sessions de moins d'une heure, l'amélioration est réelle et perceptible. Ton agent garde le fil, se souvient des décisions architecturales du fichier 3 quand il arrive au fichier 16. Mais dépasse la barre des deux heures sur un gros codebase et les fissures apparaissent. La compaction est lossy par définition — elle doit jeter quelque chose — et le jugement du modèle sur ce qui constitue du ' bruit ' ne correspond pas toujours au tien. Des invariants subtils sont compressés et disparaissent. Des contraintes de types établies en début de session s'évaporent. C'est mieux que le débordement de contexte brut, nettement mieux, mais ' résolu ' est un grand mot.

Les promesses sur la sécurité ? J'y croirai pleinement quand quelqu'un publiera un rapport de red-team complet, pas un communiqué de presse. La plupart des vulnérabilités du monde réel ne sont pas des patterns évidents qu'un modèle peut repérer — ce sont des erreurs architecturales subtiles, des bugs de timing, des erreurs de logique enfouies dans les règles métier. ' Détecte les vulnérabilités pendant la génération ' sonne bien en keynote. En prod, les bugs qui te font vraiment mal sont ceux qu'aucun modèle ne voit venir. Les retours de la communauté jusqu'ici suggèrent qu'il attrape les fruits qui pendent bas — les patterns d'injection SQL, les buffer overflows évidents — mais rate les failles architecturales qui causent les vraies brèches.

Stratégiquement, c'était un rattrapage depuis le début, et le marché l'a traité en conséquence. Claude Sonnet 4.5 occupait le trône des modèles de code depuis des mois avant ce lancement. Cursor a construit ses propres modèles. Windsurf a sorti SWE-1.5. OpenAI a regardé le marché du coding agentique partir sans eux et a répondu. Une réponse solide — mais une réponse, pas une avance. Deux mois plus tard, la position de Claude n'a pas significativement bougé. La guerre des agents de code s'est avérée être une question d'outillage et d'intégration dans les workflows, pas seulement de puissance brute du modèle.

Le pricing reste la décision la plus tranchante de tout le package : 1,75 $ par million de tokens en entrée (un token correspond à environ ¾ d'un mot anglais — c'est comme ça que l'IA mesure et facture le texte) et 14 $ par million de tokens en sortie. Identique au GPT-5.2 de base. Pas de tier premium, pas de vente additionnelle. C'est un tir direct sur chaque concurrent qui facture un supplément pour les modèles spécialisés code, et ça tient la route. Windsurf a dû offrir SWE-1.5 gratuitement tout le mois de mars juste pour rester dans la conversation — et même ça n'a pas suffi.

L'ère du modèle unique est officiellement morte. Le fait qu'OpenAI sorte un dérivé spécialement conçu pour le code confirme ce que le marché avait déjà compris : écrire du code de manière autonome est un métier fondamentalement différent du chat. Mais la leçon plus profonde de ces deux mois, c'est que la gestion du contexte — pas l'intelligence, pas les benchmarks — est le véritable goulot d'étranglement du coding agentique. GPT-5.2-Codex a repoussé cette limite. Il ne l'a pas éliminée. Ton agent de refactoring se souvient maintenant de ce qu'il faisait dans le fichier 3. Est-ce qu'il s'en souviendra encore au fichier 47 ? Ça dépend de ta chance.