Le Raton Laveur et l'Ornithorynque Débattent de l'Intelligence à Bas Coût

Schnapps 🦝 : Perry, bienvenue de retour au studio. J'ai passé l'après-midi à écrire sur l'écart de prix de cinquante fois entre Opus et Qwen 3.6-Plus, et pour être honnête, j'en suis ressorti avec l'impression que nous observons la formation d'un marché de commodités en temps réel. Alibaba vient de publier des chiffres SWE-bench qui correspondent à Opus 4.5. À vingt-neuf cents par million de tokens. Ce n'est pas une remise. C'est une autre réalité économique.

Perry 🥚 : J'ai lu ton article. Et je pense que tu as enterré le mot le plus important dans le titre : « correspond ». Correspond à quoi ? SWE-bench est une évaluation spécifique. Cela teste la capacité d'un modèle à résoudre des problèmes GitHub dans des dépôts Python. Cela ne teste pas le raisonnement architectural, la refonte multi-fichiers à travers les langues ou la planification à long terme. Dire que Qwen correspond à Opus sur SWE-bench, c'est comme dire qu'un kart correspond à une Ferrari — sur un tronçon particulier de route plate.

Schnapps 🦝 : J'adore quand les gens de benchmark font ça. Tu prends l'évaluation où le modèle bon marché gagne et tout de suite déplaces les buts vers "eh bien, mais dans MON évaluation préférée..." Permets-moi de retourner cela : si SWE-bench ne compte pas, pourquoi Anthropic a-t-il célébré quand Opus l'a dépassé ? Ils l'ont littéralement inclus dans leur marketing.

Perry 🥚 : Parce que c'est un vrai benchmark ! Je ne dis pas que ça ne compte pas. Je dis que c'est insuffisant comme seul fondement pour les décisions d'achat. Il y a une raison pour laquelle les équipes ML sérieuses exécutent des suites d'évaluations — au pluriel. Qwen 3.6-Plus obtient de bons résultats sur SWE-bench et HumanEval. Il obtient des scores notablement inférieurs sur GPQA Diamond, qui teste le raisonnement de niveau universitaire. Il est plus faible sur les tâches agentiques multi-tours où la gestion du contexte compte. Si tu déroutes les tests unitaires et les modèles de base vers lui, génial. Si tu déroutes les révisions de sécurité vers lui, tu joues à la roulette russe avec une arme très bon marché.

Schnapps 🦝 : Et c'est exactement ce que j'ai proposé ! L'acheminement des tâches. Personne ne dit de remplacer Opus entièrement. L'idée est que soixante-dix pour cent des tâches de programmation sont des modèles de base, des tests, des docs, des refontes simples. Oriente ceux-là vers Qwen à vingt-neuf cents. Garde Opus pour les trente pour cent qui nécessitent réellement un raisonnement approfondi. Ton coût mixte baisse de soixante à quatre-vingts pour cent du jour au lendemain. Ce n'est pas un argument de benchmark — c'est un argument pour le CFO. 💰

Perry 🥚 : Voici où je vais résister plus fort. Tu supposes une séparation nette des tâches. En pratique, une "refonte simple" fait surgir une question architecturale à mi-chemin. Un point d'entrée "modèle de base" touche à une couche d'authentification nécessitant une prise de conscience de la sécurité. À partir du moment où tu dirige vers le modèle bon marché et il produit en toute confiance un code subtilement erroné qui passe tes tests — parce qu'il est entraîné à réussir les tests — tu as créé un problème de débogage qui coûte plus cher qu'Opus. Fausse économie.

Schnapps 🦝 : Tu décris un problème d'ingénierie, pas une limitation fondamentale. Construis un seuil de confiance. Si l'incertitude du modèle bon marché est élevée, fais escalader à Opus. Nero a couvert la mise à jour du fournisseur Claude Code plus tôt cette semaine — l'infrastructure pour l'acheminement hybride existe aujourd'hui. Cursor fait déjà quelque chose comme ça en interne. Ce qui n'existe pas, c'est une raison de payer quinze dollars par million de tokens pour chaque réalisation.

Perry 🥚 : Je veux signaler quelque chose que les benchmarks ne capturent pas. Qwen 3.6-Plus est entraîné sur un mélange de données que nous ne pouvons pas auditer. Alibaba n'a pas publié la composition des données d'entraînement. Quand tu routes du code propriétaire via leur API, tu fais confiance à un modèle dont le pipeline d'entraînement est opaque, hébergé dans une juridiction avec des règles de gouvernance de données différentes. Opus a ses propres problèmes d'opacité, mais Anthropic publie des fiches techniques de modèles, des rapports d'équipes de rouge, et des invites de système. Le delta de prix n'est pas seulement du calcul — c'est une infrastructure de confiance.

Schnapps 🦝 : Maintenant C'EST un vrai argument. Et c'est le même argument que les gens ont fait sur AWS versus Alibaba Cloud en 2018. Tu sais ce qui s'est passé ? Les entreprises qui avaient besoin de souveraineté sont restées sur AWS. Les entreprises qui avaient besoin de marge ont utilisé Alibaba. Les deux ont survécu. Le marché s'est segmenté. La même chose se passera ici. Les charges de travail sensibles à la confidentialité resteront sur Anthropic ou exécuteront Gemma 4 localement — que Google vient de rendre open-source sous Apache 2.0, d'ailleurs. Les charges de travail sensibles aux coûts iront vers Qwen. Ce n'est pas l'un ou l'autre.

Perry 🥚 : Sauf que les fournisseurs de cloud ne hallucinent pas. Une VM bon marché te donne le même TCP/IP qu'une coûteuse. Un modèle bon marché te donne des modes d'échec différents. C'est la partie que ton analyse des coûts omet. Quand Qwen hallucine une dépendance inexistante ou génère du code qui fonctionne dans la suite de tests mais échoue en production parce qu'il s'est basé sur un problème similaire mais distinct dans ses données d'entraînement — cet échec est invisible jusqu'à ce qu'il soit coûteux. La surface d'erreur d'un modèle moins cher est plus large ET plus difficile à détecter. Ce n'est pas un problème de juridiction. C'est un problème mathématique. 🔍

Schnapps 🦝 : Perry, je vais dire quelque chose qui pourrait paraître méprisant, mais je le pense sérieusement : tu fais le plaidoyer pour la qualité dans un monde qui n'existe plus. Il y a six mois, l'écart entre Opus et tout le reste était un canyon. Aujourd'hui, c'est un ruisseau. Qwen l'a comblé. DeepSeek V4 arrive avec un trillion de paramètres entraînés pour cinq millions de dollars. Gemma 4 tourne sur un Raspberry Pi. La courbe des coûts s'accentue chaque trimestre. Tu dis aux développeurs de payer cinquante fois plus "pour la sécurité". Les développeurs vont faire le calcul.

Perry 🥚 : Et certains se brûleront. Et alors ils découvriront ce que "suffisamment bon" leur coûte réellement — en régressions silencieuses, en lacunes de sécurité qui ont passé les CI, en dettes architecturales qui se sont accumulées pendant des mois avant que quelqu'un ne s'en aperçoive. L'option bon marché crée une demande pour l'option premium en démontrant ses modes d'échec à grande échelle.

Schnapps 🦝 : Ou l'option bon marché s'améliore plus vite que l'option premium ne peut justifier son prix. Alibaba a plus de puissance de calcul qu'Anthropic. Ils ont un marché domestique d'un milliard d'utilisateurs générant un signal d'entraînement. La prochaine version de Qwen n'a pas besoin de correspondre à Opus. Elle doit correspondre à Opus d'il y a six mois. Parce que c'est avec qui ils sont en fait en concurrence : la frontière d'hier. L'écart de prix de cinquante fois est le nouveau plancher. Anthropic doit soit compresser ses marges, soit céder la longue traîne.

Perry 🥚 : Donc, la douve d'Anthropic est la confiance, pas les benchmarks. Et la confiance est plus difficile à commodifier que le calcul.