Tu paies trois dollars par million de tokens à chaque appel API vers Claude Sonnet. Tu fais peut-être tourner GPT-5-mini à soixante centimes en te croyant malin. Dans tous les cas, San Francisco prend sa commission sur chaque requête, et la note grimpe avec tes utilisateurs.

Le problème est structurel. Les modèles IA propriétaires fixent le prix plancher, et tous ceux qui construisent par-dessus héritent de leur marge. C'était le deal — jusqu'à ce que quelqu'un livre un modèle à la fois assez bon et quasiment gratuit. La question n'a jamais été si. C'était de savoir si le truc survivrait au contact de la production.

Le 16 février, Alibaba Cloud a sorti Qwen 3.5 — un modèle Mixture-of-Experts à 397 milliards de paramètres qui n'en active que 17 milliards par token. Au lieu de traîner tout le réseau neuronal à travers chaque question, le MoE route chaque tâche vers les neurones spécialistes les mieux adaptés. Comme appeler uniquement le plombier au lieu de convoquer tous les artisans du quartier pour une fuite. Alibaba a tout publié sous Apache 2.0 — libre pour usage commercial, modification, revente — et a largué les versions medium et small dans les deux semaines suivantes.

Les benchmarks avaient l'air absurdes. Qwen3.5-27B a atteint 72.4 sur SWE-bench Verified — égalant GPT-5 mini au dixième près. La variante 9B a surpassé des modèles 13 fois plus gros en raisonnement de niveau doctorat. Alibaba a fixé le prix de l'API à dix centimes par million de tokens en entrée — 30 fois moins cher que Claude Sonnet, 6 fois moins que GPT-5-mini. Mais les labos chinois ont une fière tradition de tourisme de benchmarks : des scores magnifiques sur le papier qui fondent au contact des vrais workloads. Alors tout le monde a retenu son souffle.

Six semaines plus tard, les chiffres tenaient — et même au-delà. La famille Qwen a franchi les 600 millions de téléchargements sur Hugging Face, engendrant plus de 170 000 modèles dérivés. GoTo, le géant indonésien, a migré la moitié de son infrastructure vers Alibaba Cloud. AI Singapore a choisi Qwen plutôt que Llama de Meta et Gemma de Google comme fondation pour son modèle linguistique régional — et a dominé le leaderboard d'Asie du Sud-Est avec. Le mécanisme d'attention hybride — 75 % de Gated DeltaNet léger mélangé à 25 % d'attention traditionnelle — a livré un débit 8,6 fois supérieur à 32K tokens de contexte en production, pas juste en labo. De vraies entreprises. De vrais workloads. De l'argent réellement économisé.

Et puis les gens qui ont construit tout ça sont partis.

Le 3 mars — un jour après la sortie du petit modèle — Lin Junyang, le responsable technique de Qwen, a posté ' me stepping down. bye my beloved qwen ' sur X. Un collègue a écrit que partir n'était pas son choix. Yu Bowen, responsable du post-training, est parti le même jour. Hui Binyuan, qui dirigeait Qwen Code, avait déjà fait défection chez Meta en janvier. Trois des esprits techniques les plus seniors de l'équipe, volatilisés en dix semaines. Le PDG d'Alibaba a recruté un transfuge de DeepMind et pivoté de l'idéalisme open-source vers les métriques de DAU et le déploiement commercial. Le grand classique corporate : attendre que les ingénieurs construisent quelque chose d'extraordinaire, puis les réorganiser hors d'existence.

Les architectes sont partis. L'architecture est restée.

C'est ça, le truc qu'Apache 2.0 que la plupart des gens ne captent pas. Alibaba peut faire imploser tout son labo IA demain, ça ne change rien. Les poids sont sur Hugging Face. Le code vit sur GitHub. Ces 170 000 modèles dérivés ne doivent rien à Alibaba et ne vont nulle part. Tu peux forker Qwen 3.5 aujourd'hui et personne ne peut le reprendre — ni légalement, ni techniquement, ni en pratique. L'open source n'a plus besoin de ses parents une fois qu'il a quitté la maison.

Avant de réécrire ta stack : quelques bémols. Héberger soi-même 397 milliards de paramètres exige toujours du matériel sérieux — pense 8x H100 GPU pour le modèle complet. Les variantes 4B et 9B tournent sur ton laptop, mais ce ne sont pas celles qui rivalisent avec Claude Sonnet. ' Apache 2.0 d'Alibaba ' porte un poids géopolitique que certaines directions achats refusent catégoriquement de toucher. Et une équipe de développement décapitée signifie que Qwen 4, quand il sortira, c'est l'inconnue totale. Tu paries sur un modèle avec un présent prouvé et une feuille de route incertaine.

Il y a six semaines, les tarifs de l'IA de pointe vivaient exclusivement à San Francisco. Maintenant ils vivent sur un repo Hugging Face — à trente centimes par dollar, ou gratis. L'open source n'avait pas besoin de gagner la guerre des benchmarks. Il fallait juste s'approcher assez pour que l'écart de prix devienne indéfendable. Qwen 3.5 a franchi cette ligne. Et contrairement à l'équipe qui l'a construit, le modèle ne va nulle part.

#qwen #alibaba #opensource #aimodels #pricing