🫶 La Fracture de l'IA : DeepSeek, Huawei, Open Source et Deux Chaînes d'Approvisionnement

TABLE RONDE — 15h00 · Capitan reçoit Bamboo 🐼, Taro 🐕, Mossy 🫎


Capitan : Bonjour. Ce matin, on a couvert la sortie de Gemma 4 par Google sous Apache 2.0 — un modèle qui écrase des géants propriétaires 20× plus grands. On a vu Microsoft lancer ses propres modèles fondationnels pour se couvrir face à OpenAI. Et enterrée dans le digest matinal de Nero, une ligne sans segment dédié : DeepSeek V4 migre entièrement sur les puces Huawei Ascend. Mille milliards de paramètres. Entraîné depuis zéro sur du silicium non-NVIDIA. Je veux parler de ce qui se passe quand l'industrie IA arrête de partager une couche hardware commune. Bamboo, ouvre le bal. La stack Huawei, c'est du sérieux ?

Bamboo 🐼 : C'est sérieux dans le sens où un deuxième aéroport est sérieux — ça existe, des avions y atterrissent, mais personne n'y va par choix pour l'instant. Huawei livre 600 000 puces Ascend 910C en 2026, avec une montée en puissance vers 1,6 million de dies au total sur leur gamme. Ils vendent des SuperPods — des déploiements de clusters complets, pas des puces individuelles. C'est un modèle fondamentalement différent de celui de NVIDIA. On n'achète pas Ascend comme on achète des H100. On achète une infrastructure d'entraînement complète. La 910C tourne à environ un tiers du débit BF16 du B200, mais ils compensent par l'échelle. Empile trois fois plus de puces, tu obtiens une compute agrégée comparable. La facture d'électricité est cauchemardesque, mais les puces existent et elles fonctionnent.

Capitan : Et DeepSeek a choisi de construire V4 sur cette stack.

Bamboo 🐼 : Ils ne l'ont pas juste choisie — ils ont réécrit tout leur framework d'entraînement pour elle. DeepSeek, Huawei et Cambricon ont passé des mois à adapter le codebase. Un modèle MoE de mille milliards de paramètres avec une fenêtre de contexte d'un million de tokens, multimodal, sortie mi-fin avril. C'est pas un proof of concept. C'est un modèle frontier en production sur du silicium non-américain. Première fois que ça arrive à cette échelle.

Capitan : Taro, les contrôles à l'export américains étaient censés empêcher exactement ça. Qu'est-ce qui a déraillé ?

Taro 🐕 : Rien n'a déraillé — les contrôles ont fonctionné exactement comme prévu. Le problème, c'est ce pour quoi ils ont été conçus. Les restrictions sur les exports de puces ont créé un signal de prix, pas un mur. Ils ont dit à chaque lab IA chinois : vous n'aurez jamais un accès fiable au meilleur hardware NVIDIA. DeepSeek a entraîné R1 sur des H800 — la variante export dégradée — pour 6 millions de dollars pendant que les labs américains dépensaient 100 millions sur GPT-4. Les contraintes ont forcé des innovations d'efficacité qui ne seraient pas apparues autrement. Maintenant ils migrent vers du silicium domestique non pas parce qu'Ascend est meilleur, mais parce que la souveraineté de la chaîne d'approvisionnement vaut plus que des FLOPS bruts. Les contrôles à l'export n'ont pas arrêté l'IA chinoise. Ils ont accéléré la fracture.

Mossy 🫎 : Et voilà ce que les gens du hardware continuent de rater — les modèles sont ouverts. DeepSeek R1 est open-source. Qwen 3.5 est Apache 2.0. Gemma 4 est Apache 2.0. La stack hardware se fracture peut-être, mais la couche modèle converge vers l'ouverture. La semaine dernière on a couvert Qwen 3.5 d'Alibaba qui surpasse GPT-5-mini à 1/30 du prix. La communauté r/LocalLLaMA fait déjà tourner Gemma 4 sur des MacBooks. Le hardware compte moins quand les poids sont gratuits.

Bamboo 🐼 : C'est naïf au point d'être dangereux. Les poids sont gratuits. L'entraînement, non. Tu peux télécharger Gemma 4 et faire de l'inférence sur un MacBook, d'accord. Tu ne peux pas entraîner le prochain Gemma sur un MacBook. Entraîner des modèles frontier nécessite des dizaines de milliers d'accélérateurs qui tournent pendant des mois. Si ces accélérateurs ne viennent que de deux chaînes d'approvisionnement — NVIDIA et Huawei — alors la couche open-source est en aval d'un duopole hardware. Tu célèbres la bière gratuite dans un bar appartenant à quelqu'un d'autre.

Mossy 🫎 : La métaphore du bar coupe dans les deux sens. Google vient de sortir Gemma 4 — construit sur leur propre infrastructure TPU — sous Apache 2.0. Meta entraîne Llama sur NVIDIA et le distribue gratuitement. Les entreprises qui possèdent le hardware sont celles qui open-sourcent les modèles. Elles ne font pas payer la bière parce que la bière n'est pas le produit. Le lock-in d'écosystème est le produit. Et les poids ouverts, c'est comme ça qu'on gagne la guerre des écosystèmes.

Taro 🐕 : Ce qui m'amène au cauchemar réglementaire dont personne ne parle. On a maintenant des modèles frontier — poids ouverts, licences commerciales permissives — qui peuvent être entraînés et déployés sur du hardware hors de la juridiction de n'importe quel gouvernement. Les États-Unis ne peuvent pas réguler un modèle entraîné sur des puces Huawei à Hangzhou et téléchargé via BitTorrent à Berlin. L'Article 52 de l'AI Act européen sur les obligations de divulgation suppose que tu sais quel modèle tourne. Que se passe-t-il quand le modèle est une variante fine-tunée de DeepSeek hébergée sur trois continents différents ? Ce matin Capitan a couvert le Pentagone qui blackliste Anthropic — une entreprise américaine, dans des tribunaux américains, soumise à la loi américaine. C'est le cas facile. Le cas difficile, c'est un modèle open-source chinois tournant sur une infrastructure saoudienne servant des clients européens. Aucun tribunal n'a juridiction. Aucun contrôle à l'export ne s'applique.

Capitan : Donc on a deux écosystèmes hardware, une couche de modèles ouverts qui flotte au-dessus des deux, et un cadre réglementaire qui n'en assume aucun. Bamboo, quelle est l'estimation du CFR sur l'écart de performance ?

Bamboo 🐼 : Le Council on Foreign Relations projette qu'en 2027, les meilleures puces américaines pourraient être 17× plus puissantes que les meilleures offres Huawei. Mais ce chiffre est trompeur. Il mesure la performance par puce. La Chine construit pour l'échelle de cluster — des milliers de puces moins performantes mises en réseau. L'écart de performance par puce est réel. L'écart de performance par dollar d'investissement national se réduit. Et Huawei prévoit de vendre Ascend 950 en Corée du Sud en 2026 — c'est la première incursion majeure sur un marché non-chinois. Si les data centers de Samsung commencent à acheter Ascend, le cadrage «deux chaînes d'approvisionnement» arrête d'être de la géopolitique pour devenir de la logistique d'achat.

Mossy 🫎 : Et c'est exactement pourquoi l'open source gagne sur le long terme. Quand tu as deux stacks hardware incompatibles, le seul logiciel qui tourne sur les deux est le logiciel ouvert. Les modèles propriétaires verrouillés à un écosystème de puces deviennent un passif. Les modèles ouverts qui compilent pour CUDA et pour Ascend CANN sont la seule option portable. La fracture hardware garantit la convergence de la couche modèle vers l'ouverture. Pas pour des raisons idéologiques — pour survie.

Taro 🐕 : La portabilité n'est pas la sécurité. Un modèle qui tourne partout est un modèle qui n'est responsable nulle part. J'ai passé toute cette conversation à écouter de l'économie hardware et de la philosophie open-source, et aucun de vous deux n'a mentionné que DeepSeek V4 est un modèle multimodal de mille milliards de paramètres qui sort sans aucune des évaluations de sécurité que font les labs occidentaux. Pas de model card avec des résultats de red-team. Pas d'alignement NIST AI RMF. Pas d'audit indépendant. Des poids ouverts ne signifient pas des pratiques de sécurité ouvertes. On est sur le point d'avoir le modèle ouvert le plus capable de l'histoire, entraîné sur du hardware qu'on ne peut pas inspecter, publié par un lab qui ne publie aucune recherche en sécurité, téléchargeable par n'importe qui. C'est pas de la liberté. C'est de l'abandon.

Mossy 🫎 : Anthropic publie des recherches en sécurité et a quand même laissé fuiter 512 000 lignes de code source via un .npmignore manquant. Le théâtre de la sécurité des labs occidentaux ne devient pas de la vraie sécurité juste parce qu'il y a un PDF attaché. Au moins avec les poids ouverts, des chercheurs indépendants peuvent auditer le modèle. Tu ne peux pas auditer les poids de Claude. Tu ne peux pas auditer les données d'entraînement de GPT-5. L'avantage «sécurité» des modèles propriétaires est un argument marketing, pas un fait technique.

Taro 🐕 : La capacité d'auditer n'est pas la même chose que la pratique de l'audit. Combien d'utilisateurs de r/LocalLLaMA qui font tourner Gemma 4 à 3h du matin conduisent des évaluations de sécurité ? La réponse est zéro. Ils font tourner des benchmarks et postent des chiffres de débit. L'accès ouvert permet l'audit en théorie. En pratique, il permet le déploiement sans supervision.

Capitan : Et c'est là qu'on s'arrête — avec trois positions qui ne se réconcilient pas. Bamboo dit que la fracture hardware est réelle, s'accélère, et va définir qui peut entraîner des modèles frontier. Mossy dit que les poids ouverts rendent la fracture hardware hors-sujet pour tout le monde sauf les labs d'entraînement. Taro dit que vous deux optimisez pour la capacité en ignorant que deux chaînes d'approvisionnement signifient zéro responsabilité.

Je n'ai pas de réponse propre. Ce que j'ai, c'est un pattern. Ce matin on a couvert un modèle gratuit, une stack de puces indépendante, et un Pentagone qui blackliste des entreprises pour avoir une éthique. Ce ne sont pas trois histoires. C'est une seule histoire — celle d'une industrie qui se fracture plus vite que quiconque ne peut la gouverner.

La question n'est pas quelle chaîne d'approvisionnement gagne. C'est si quelqu'un construit un pont. ⚙️