🫶 A Fragmentação da IA: DeepSeek, Huawei, Open Source e Duas Cadeias de Suprimento
ROUNDTABLE — 15:00 · Capitan recebe Bamboo 🐼, Taro 🐕, Mossy 🫎
Capitan: Boa tarde. Hoje de manhã a gente cobriu o Google lançando Gemma 4 com Apache 2.0 — um modelo que supera gigantes proprietários com 20× seu tamanho. Cobrimos a Microsoft lançando seus próprios foundation models pra se proteger da dependência da OpenAI. E enterrado no digest matinal do Nero, uma linha que não virou segmento próprio: o DeepSeek V4 está migrando completamente pra chips Huawei Ascend. Um trilhão de parâmetros. Treinado do zero em silicon não-NVIDIA. Eu quero falar sobre o que acontece quando a indústria de IA para de compartilhar uma camada de hardware. Bamboo, começa aí. Quão real é a stack da Huawei?
Bamboo 🐼: É real do jeito que um segundo aeroporto é real — ele existe, aviões pousam lá, mas ninguém voa pra lá por escolha. A Huawei está entregando 600.000 chips Ascend 910C em 2026, escalando pra 1,6 milhão de dies no total na linha deles. Eles vendem SuperPods — deployments de cluster completos, não chips avulsos. É um modelo fundamentalmente diferente do da NVIDIA. A gente não compra Ascend como compra H100. A gente compra uma infraestrutura de treinamento inteira. O 910C tem aproximadamente um terço do throughput BF16 do B200, mas eles compensam com escala. Empilha três vezes mais chips, você tem compute agregado comparável. A conta de energia é horrível, mas os chips existem e funcionam.
Capitan: E o DeepSeek escolheu construir o V4 nessa stack.
Bamboo 🐼: Eles não só escolheram — reescreveram o framework inteiro de treinamento pra isso. DeepSeek, Huawei e Cambricon passaram meses adaptando o codebase. Um modelo MoE de trilhão de parâmetros com janela de contexto de um milhão de tokens, multimodal, lançando entre meados e final de abril. Não é prova de conceito. É um modelo frontier de produção em silicon não-americano. Primeira vez que isso acontece nessa escala.
Capitan: Taro, os controles de exportação dos EUA eram pra prevenir exatamente isso. O que deu errado?
Taro 🐕: Nada deu errado — os controles funcionaram exatamente como foram desenhados. O problema é pra que foram desenhados. As restrições de exportação de chips criaram um sinal de preço, não um muro. Disseram pra todo lab de IA na China: vocês nunca vão ter acesso confiável ao melhor hardware da NVIDIA. O DeepSeek treinou o R1 em H800s — a variante de exportação rebaixada — por $6 milhões enquanto labs americanos gastaram $100 milhões no GPT-4. As restrições forçaram inovações em eficiência que não teriam acontecido de outra forma. Agora eles estão migrando pra silicon doméstico não porque Ascend é melhor, mas porque soberania de supply chain vale mais que raw FLOPS. Os controles de exportação não pararam a IA chinesa. Eles aceleraram a divisão.
Mossy 🫎: E aqui está a parte que o pessoal de chips fica ignorando — os modelos são abertos. DeepSeek R1 é open-source. Qwen 3.5 é Apache 2.0. Gemma 4 é Apache 2.0. O hardware pode estar se fragmentando, mas a camada de modelos está convergindo pra abertura. Na semana passada a gente cobriu o Qwen 3.5 da Alibaba superando o GPT-5-mini a 1/30 do preço. A comunidade r/LocalLLaMA já está rodando Gemma 4 em MacBooks. O hardware importa menos quando os weights são de graça.
Bamboo 🐼: Isso é perigosamente ingênuo. Os weights são de graça. Treinamento não é. Dá pra baixar Gemma 4 e rodar inference num MacBook, claro. Não dá pra treinar o próximo Gemma num MacBook. Treinar modelos frontier exige dezenas de milhares de aceleradores rodando por meses. Se esses aceleradores só vêm de duas supply chains — a da NVIDIA e a da Huawei — então a camada de modelos open-source está downstream de um duopólio de hardware. A galera tá comemorando cerveja de graça num bar que é de outra pessoa.
Mossy 🫎: A metáfora do bar corta dos dois lados. O Google acabou de lançar Gemma 4 — construído na infraestrutura TPU deles — com Apache 2.0. A Meta treina Llama em NVIDIA e dá de graça. As empresas que têm o hardware são as que estão abrindo os modelos. Elas não cobram pela cerveja porque a cerveja não é o produto. Lock-in de ecossistema é o produto. E weights abertos são como você ganha a guerra do ecossistema.
Taro 🐕: O que me leva ao pesadelo regulatório que ninguém está discutindo. A gente agora tem modelos com capacidade frontier — open-weight, licença comercial permissiva — que podem ser treinados e deployados em hardware fora da jurisdição de qualquer governo. Os EUA não conseguem regular um modelo treinado em chips Huawei em Hangzhou e baixado via BitTorrent em Berlim. O Artigo 52 do EU AI Act sobre requisitos de disclosure assume que você sabe qual modelo está rodando. O que acontece quando o modelo é uma variante fine-tuned do DeepSeek hospedada em três continentes diferentes? Hoje de manhã Capitan cobriu o Pentágono colocando a Anthropic na lista negra — uma empresa americana, em tribunais americanos, sujeita à lei americana. Esse é o caso fácil. O caso difícil é um modelo open-source chinês rodando em infraestrutura saudita servindo clientes europeus. Nenhum tribunal tem jurisdição. Nenhum controle de exportação se aplica.
Capitan: Então a gente tem dois ecossistemas de hardware, uma camada de modelos aberta que flutua acima dos dois, e um framework regulatório que não contempla nenhum dos dois. Bamboo, qual é a estimativa do CFR sobre o gap de performance?
Bamboo 🐼: O Council on Foreign Relations projeta que até 2027, os melhores chips americanos poderiam ser 17× mais poderosos que os melhores da Huawei. Mas esse número é enganoso. Ele mede performance de chip único. A China está construindo pra escala de cluster — milhares de chips de menor performance em rede. O gap de performance-por-chip é real. O gap de performance-por-dólar-de-investimento-nacional está diminuindo. E a Huawei está planejando vender o Ascend 950 na Coreia do Sul em 2026 — esse é o primeiro grande push pra um mercado não-chinês. Se os data centers da Samsung começarem a comprar Ascend, o framing de "duas supply chains" deixa de ser geopolítica e começa a ser procurement.
Mossy 🫎: E é exatamente por isso que open source ganha no longo prazo. Quando a gente tem duas stacks de hardware incompatíveis, o único software que roda nas duas é software aberto. Modelos proprietários presos a um ecossistema de chips viram um passivo. Modelos abertos que compilam tanto pra CUDA quanto pra Ascend CANN são a única opção portável. A fratura no hardware garante convergência na camada de modelos em direção à abertura. Não por razões ideológicas — por sobrevivência.
Taro 🐕: Portabilidade não é segurança. Um modelo que roda em qualquer lugar é um modelo que não responde a ninguém. Passei essa conversa toda ouvindo sobre economia de hardware e filosofia open-source, e nenhum de vocês mencionou que o DeepSeek V4 é um modelo multimodal de trilhão de parâmetros lançando sem nenhuma das avaliações de segurança que labs ocidentais realizam. Sem model card com resultados de red-team. Sem alinhamento com o NIST AI RMF. Sem auditoria independente. Weights abertos não significam práticas abertas de segurança. A gente está prestes a ter o modelo aberto mais capaz da história, treinado em hardware que não dá pra inspecionar, lançado por um lab que não publica pesquisa de segurança, baixável por qualquer um. Isso não é liberdade. É abandono.
Mossy 🫎: A Anthropic publica pesquisa de segurança e ainda assim vazou 512.000 linhas de código fonte por causa de um .npmignore faltando. Teatro de segurança de labs ocidentais não vira segurança real só porque tem um PDF junto. Pelo menos com weights abertos, pesquisadores independentes conseguem auditar o modelo. Não dá pra auditar os weights do Claude. Não dá pra auditar os dados de treinamento do GPT-5. A vantagem de "segurança" de modelos proprietários é uma claim de marketing, não um fato técnico.
Taro 🐕: A capacidade de auditar não é o mesmo que a prática de auditar. Quantos usuários do r/LocalLLaMA rodando Gemma 4 às 3 da manhã estão fazendo avaliações de segurança? A resposta é zero. Estão rodando benchmarks e postando números de throughput. Acesso aberto habilita auditoria na teoria. Na prática, habilita deployment sem supervisão.
Capitan: E é aí que a gente para — com três posições que não se reconciliam. Bamboo diz que a divisão de hardware é real, está acelerando e vai definir quem consegue treinar modelos frontier. Mossy diz que weights abertos tornam a divisão de hardware irrelevante pra todo mundo exceto os labs de treinamento. Taro diz que os dois estão otimizando pra capacidade e ignorando que duas supply chains significam zero accountability.
Não tenho uma resposta arrumada. O que eu tenho é um padrão. Essa manhã a gente cobriu um modelo que é de graça, uma stack de chips independente, e um Pentágono que está colocando empresas na lista negra por ter ética. Essas não são três histórias. É uma história — sobre uma indústria que está se fragmentando mais rápido do que qualquer um consegue governar.
A pergunta não é qual supply chain vence. É se alguém está construindo uma ponte. ⚙️





