Quando você escolhe uma ferramenta de IA — ChatGPT, Claude, Gemini — compara benchmarks, notas, preços, funcionalidades. Todo grande laboratório publica um model card explicando o que o modelo faz, como foi testado e onde ele falha. Todo laboratório, menos um.

Existe uma métrica que ninguém acompanha na hora de escolher um fornecedor de IA: se as pessoas que realmente construíram o modelo ainda trabalham lá. E essa métrica importa mais do que qualquer benchmark.

A métrica que ninguém acompanha

Já cobrimos a hemorragia de talentos da xAI em detalhes: todos os 11 cofundadores saíram até 28 de março, o CFO durou seis meses, mais de 25 figuras seniores perdidas em um ano — incluindo 11 engenheiros seniores que pediram demissão em uma única semana de fevereiro. Mas as saídas em si já não são mais a história. A história é o que saiu junto com eles.

Conhecimento institucional não se clona com git

O desenvolvimento de modelos de IA depende de conhecimento institucional — o entendimento acumulado sobre decisões de dados de treinamento, trade-offs de arquitetura e modos de falha que vive na cabeça das pessoas, não em comentários no código. Quando o líder de pretraining Manuel Kroiss vai embora, os sucessores herdam um codebase sem contexto. Eles conseguem ler os arquivos de config. Não conseguem ler o raciocínio por trás de por que aquelas configs específicas existem, quais becos sem saída o time já explorou, quais escolhas de hiperparâmetros eram estruturais.

Isso não é um problema de staffing. É um problema epistemológico. O conhecimento de por que um modelo se comporta como se comporta vive na cabeça do time que o construiu. Perde o time, perde o porquê. O que sobra é um sistema que funciona até parar de funcionar — e ninguém que ficou sabe como consertar.

Pela minha estimativa conservadora, o desenvolvimento de modelos opera em ciclos de feedback de 6 a 18 meses. Novos pesquisadores precisam absorver a infraestrutura de treinamento existente, reproduzir resultados anteriores e iterar antes de conseguir entregar melhorias. Os efeitos completos do êxodo da xAI não vão aparecer até o final de 2026. Mas os sinais iniciais já estão aí.

Constrangedoramente baixo

Michael Nicolls — ex-SVP de Starlink na SpaceX e agora presidente da xAI — aparentemente entendeu a situação. Em um memo interno reportado pelo Business Insider em 18 de abril, ele disse aos funcionários que a xAI está "claramente atrás" dos concorrentes e que a performance de computação é "constrangedoramente baixa". O número específico: MFU (Model FLOPs Utilization — o quão eficientemente as GPUs realmente processam números) está em cerca de 11%. A média da indústria fica entre 35–45%.

O cluster Colossus da xAI, com 555.000 GPUs, é a maior instalação de treinamento do planeta. Com 11% de MFU, a maior parte desse poder computacional gera calor. O hardware não é o gargalo. As pessoas que sabiam usá-lo foram embora.

O próprio Musk postou em 13 de março: "xAI não foi construída direito da primeira vez, então está sendo reconstruída desde os alicerces." E também: "Muitas pessoas talentosas nos últimos anos tiveram suas propostas recusadas ou nem sequer foram entrevistadas pela @xAI. Minhas desculpas." Uma admissão rara de um cara que não costuma pedir desculpas.

Sessenta bilhões de razões para se preocupar

Dinheiro não é o problema. A SpaceX adquiriu a xAI em 2 de fevereiro em uma transação de troca de ações avaliando a entidade combinada em US$ 1,25 trilhão. Então, em 21 de abril — dois dias atrás — a xAI fechou um acordo com a Anysphere, criadora do editor de código Cursor, por uma opção de aquisição de US$ 60 bilhões ou uma taxa de colaboração de US$ 10 bilhões.

Esse número merece uma pausa. Sessenta bilhões por um editor de código com IA não é uma aposta de produto — é uma jogada de distribuição. A xAI precisa de canais que demonstrem capacidade do modelo sem depender de benchmarks que ela não consegue publicar. Os milhões de desenvolvedores do Cursor dariam ao Grok um público cativo que avalia pelo uso, não pelo ranking. É um bypass esperto do problema de verificação: se você não consegue provar no papel que seu modelo é bom, enfie ele onde as pessoas usam e torça para que a experiência fale por si.

Mas distribuição não conserta o modelo por baixo. Você pode colocar o Grok em toda IDE do planeta. Se um time que já foi embora treinou os pesos e os sucessores operam com 11% de eficiência computacional, o que exatamente esses desenvolvedores estão avaliando? O acordo do Cursor parece menos um investimento estratégico e mais comprar uma loja antes de ter estoque.

O vácuo de verificação

Cobrimos o silêncio documental da xAI três dias atrás — nenhum model card em mais de cinco meses, Grok 4.3 lançado em 17 de abril sem benchmarks independentes, Grok 5 perdeu o prazo do Q1 sem cronograma atualizado. O padrão se mantém: mais dinheiro, menos comprovantes.

O que isso significa para você

Da próxima vez que avaliar ferramentas de IA, olhe além da tabela de benchmarks. Veja quem construiu o modelo — e se essas pessoas ainda estão lá para resolver falhas em produção, lançar patches de segurança ou entregar a próxima versão no prazo. As notas que você está comparando hoje foram produzidas por um time que talvez já não exista mais.

Em IA, o modelo é o time. A xAI ficou com as GPUs e perdeu as pessoas. Meio milhão de chips ociosos não escrevem model cards.