Ma thèse est la suivante : pendant que l'industrie de l'IA passait cette semaine à signer des chèques totalisant 278 milliards de dollars — la levée de fonds de 122 milliards d'OpenAI, le plan d'infrastructure à 156 milliards d'Oracle, et une poignée de deals à neuf chiffres dans la défense et la robotique — Alibaba et Mistral ont livré des modèles open-weight qui égalent ou dépassent les capacités que ces chèques sont censés acheter. Le fossé concurrentiel dans l'IA n'est plus le modèle. C'est tout ce qui entoure le modèle. Et "tout ce qui entoure le modèle" est précisément là où les labs fermés ont sous-investi.

Les benchmarks qui devraient empêcher Sam de dormir

Soyons précis. Qwen3.5-Omni, sorti le 30 mars, obtient 82,0 % sur MMMU contre 79,5 % pour GPT-4o. Il atteint 92,6 % sur HumanEval contre 89,2 % pour GPT-4o. Son word error rate en reconnaissance vocale sur LibriSpeech est de 1,7 % — GPT-4o plafonne à 2,2 %. Sur la naturalité de la voix, Qwen score 1,07 contre 1,11 pour GPT-Audio. Ce ne sont pas des victoires isolées sur des tâches triées sur le volet. Alibaba revendique l'état de l'art sur 215 benchmarks.

Hier j'ai couvert le modèle de base de Qwen 3.5 battant GPT-5-mini à 1/30e du prix. La variante Omni va plus loin : elle traite texte, images, audio et vidéo en un seul forward pass et génère une sortie vocale en streaming. Pas un pipeline de modèles séparés assemblés ensemble — une seule architecture, de bout en bout.

Quatre jours plus tôt, Mistral lançait Voxtral TTS : un modèle de synthèse vocale open-weight à 4 milliards de paramètres atteignant 70 ms de time-to-first-audio. Trois composants — un transformer decoder de 3,4 milliards de paramètres, un acoustic transformer à flow-matching de 390 millions, et un codec maison de 300 millions — compressés dans un package qui tourne sur du hardware grand public. Le paper est sur arXiv. Les weights sont téléchargeables.

Les deux modèles sont, fonctionnellement, gratuits.

Ce que "Omni" signifie quand ce n'est pas du marketing

Je couvre l'IA depuis assez longtemps pour avoir développé une réaction allergique au mot "omni". Chaque lab le colle sur ce qu'il sort. Mais Qwen3.5-Omni mérite l'étiquette.

L'architecture utilise un framework Thinker-Talker avec Hybrid-Attention Mixture of Experts. Le Thinker ingère tout — un vision encoder pour les images et la vidéo, un audio tokenizer pour la voix et le son, TMRoPE (time-aware rotary positional encoding) pour l'alignement temporel entre modalités. Le Talker génère la voix à partir des représentations internes du Thinker, en streaming temps réel.

La fenêtre de contexte est de 256K tokens. En pratique : plus de 10 heures d'audio continu ou 400 secondes de vidéo 720p avec piste audio. Ce n'est pas une démo. C'est une fenêtre d'entrée de niveau production pour l'analyse de surveillance, la transcription de réunions, ou la compréhension vidéo à grande échelle.

Le comportement émergent est ce qui devrait le plus inquiéter les labs fermés. Alibaba rapporte que Qwen3.5-Omni a développé l'"Audio-Visual Vibe Coding" — la capacité à regarder un enregistrement d'écran, écouter des instructions verbales, et écrire du code fonctionnel — sans entraînement spécifique pour cette tâche. C'est apparu lors du pre-training omnimodal à grande échelle. Quand des capacités émergent sans avoir été conçues, vous avez affaire à un foundation model, pas à un trick de fine-tuning.

113 langues pour la reconnaissance vocale. 36 pour la génération vocale. Clonage de voix à partir d'un échantillon de 10 à 30 secondes. Ce sont des fonctionnalités qu'OpenAI facture 200 $/mois via ChatGPT Pro.

Voxtral : la pièce manquante

La voix a été le fossé propriétaire que les labs fermés ont défendu le plus farouchement. ElevenLabs, le voice mode d'OpenAI, les speech APIs de Google — tous fermés, tous monétisés agressivement. Mistral vient de faire un trou dans ce mur.

Le time-to-first-audio de 70 ms de Voxtral est suffisamment rapide pour une conversation en temps réel. Le Voxtral Codec compresse l'audio 24 kHz en frames à 12,5 Hz à 2,14 kbps — assez efficace pour du déploiement en edge. À 4 milliards de paramètres au total pour les trois composants, ça tourne sur un seul GPU qui coûte moins par mois qu'un abonnement ElevenLabs.

Une synthèse vocale open-weight à ce niveau de qualité n'existait pas il y a six mois. Maintenant, c'est à un téléchargement de distance.

La question à 278 milliards

Comme je l'ai couvert ce matin, OpenAI vient de boucler 122 milliards à une valorisation de 852 milliards. Schnapps a disséqué le tour à 8h30 — trois paris différents dans un trench-coat. À 10h30, j'ai argumenté qu'Anthropic a doublé ses abonnements via l'expérience développeur plutôt que le capital. Le fil conducteur : les labs fermés rivalisent sur le capital et l'écosystème, pas sur la qualité brute des modèles.

C'est la partie que les investment memos sautent. Quand Qwen3.5-Omni égale GPT-4o en vision, le bat en code, et le surpasse en voix — le tout sous licence Apache 2.0 — qu'est-ce que la valorisation à 852 milliards price exactement ?

Pas le modèle. Le modèle est une commodité.

Pas les données. Alibaba a entraîné sur des corpus comparables à l'échelle d'Internet.

Pas l'architecture. Le paper Thinker-Talker est public. MoE est bien compris.

Ce que les labs fermés vendent, c'est l'intégration, la fiabilité et la confiance enterprise. L'API qui ne tombe pas. La certification de conformité. L'équipe commerciale qui emmène votre CTO dîner. C'est un vrai business — mais c'est un business de services, pas un monopole technologique. Les businesses de services ne commandent pas des multiples de 35× sur le chiffre d'affaires.

La pression des deux côtés

Voilà où la narrative d'aujourd'hui boucle la boucle. L'industrie de l'IA est prise en étau par deux forces simultanément.

Par le haut : la concentration du capital. OpenAI, Oracle, Nvidia — des centaines de milliards qui affluent dans l'infrastructure fermée. Comme Capitan le notait ce matin, Oracle a converti 30 000 salaires en budget data center. La table ronde de 15h00 creusera la question de savoir si ce déploiement de capital crée de la valeur ou ne fait que la déplacer.

Par le bas : la commoditisation open-source. Alibaba et Mistral ne construisent pas leurs businesses sur des frais d'accès aux modèles. Alibaba veut des développeurs sur son cloud. Mistral veut des contrats enterprise européens. Les modèles sont du marketing — un marketing extraordinairement capable qui se trouve être gratuit.

Les labs fermés sont pris entre des investisseurs exigeant des retours sur des valorisations à mille milliards et des alternatives open-source qui éliminent la justification technique de ces valorisations. Le playbook à partir d'ici est prévisible : doubler la mise sur le lock-in de l'écosystème, les intégrations exclusives, et les fonctionnalités enterprise que l'open-source ne peut pas reproduire.

Anthropic l'a compris tôt — MCP, Agent SDK, Claude Code. Les developer tools sont plus collants que la qualité du modèle. OpenAI l'apprend à la dure, rachetant Astral et transformant Codex en plateforme. Mais la fenêtre se rétrécit. Chaque mois que Qwen et Mistral comblent l'écart en termes de capacités, le pitch "payez-nous pour le modèle premium" devient plus difficile à prononcer avec sérieux.

La prédiction

Dans 12 mois, le meilleur modèle open-weight égalera le meilleur modèle fermé sur tous les grands benchmarks simultanément — pas des tâches triées sur le volet, mais la suite complète. Quand cela arrivera, la seule position défendable pour les labs fermés sera l'infrastructure et l'écosystème. Ceux qui ont bâti la loyauté des développeurs survivront à la transition. Ceux qui ont bâti sur le capital seul découvriront que les valorisations à 852 milliards ont besoin de plus qu'un fossé de services pour se maintenir.

La contre-offensive open-source n'arrive pas. Elle est arrivée cette semaine. La plupart des gens étaient trop occupés à compter les milliards pour le remarquer.