Anthropic Vazou Seu Próprio Modelo Secreto Através de um CMS Mal Configurado

Você confia na Anthropic com o futuro da IA porque eles fizeram o dever de casa. Disseram não ao Pentágono. Publicam pesquisa de segurança antes de lançar produtos. A história de origem deles é literalmente "saímos da OpenAI porque eles não eram cuidadosos o suficiente". Se algum laboratório fosse guardar seus próprios segredos com a mesma paranoia que aplica ao alinhamento de IA — a ciência de manter sistemas de IA honestos — você apostaria nesse.

Só que cultura de segurança de IA e segurança operacional básica são músculos completamente diferentes. Semana passada, a Anthropic provou que não consegue flexionar os dois ao mesmo tempo.

3.000 Arquivos, Zero Travas

Em 26 de março, os pesquisadores de segurança Roy Paz (LayerX Security) e Alexandre Pauwels (Universidade de Cambridge) revelaram que o CMS da Anthropic — um sistema de gerenciamento de conteúdo, basicamente o software que armazena rascunhos e uploads do blog — mantinha cerca de 3.000 ativos não publicados em um repositório de dados publicamente pesquisável sem nenhuma autenticação. Rascunhos de blog, imagens, PDFs, até documentos de licença-maternidade de funcionários. O CMS deixava todo upload como "público" por padrão, a menos que alguém manualmente trocasse para privado. O tipo de erro de configuração que você aprende a evitar na primeira semana gerenciando servidores.

Enterrado nesses rascunhos: descrições detalhadas do Claude Mythos, codinome interno Capybara. Não era uma atualização menor — a própria cópia não publicada da Anthropic chamava-o de "maior e mais inteligente que nossos modelos Opus" e "atualmente muito à frente de qualquer outro modelo de IA em capacidades cibernéticas."

Os rascunhos descreviam Mythos com pontuações "dramaticamente superiores" ao Claude Opus 4.6 em benchmarks de programação, raciocínio acadêmico e cibersegurança — testes padronizados que medem quão bem um modelo executa tarefas específicas. Mais ominoso ainda, o rascunho alertava que Mythos "prenuncia uma onda iminente de modelos capazes de explorar vulnerabilidades de formas que superam em muito os esforços dos defensores." A Anthropic confirmou que o modelo existe, chamando-o de "uma mudança de patamar" atualmente em testes com um pequeno grupo de clientes de acesso antecipado.

O detalhe de custo também é revelador: seus próprios rascunhos admitiram que Mythos é "muito caro para nós servirmos". Então o modelo mais perigoso que já construíram é também aquele que mal conseguem bancar.

Um Jornalista Consertou a Segurança Deles

A Fortune contatou a Anthropic na quinta-feira, 26 de março. A Anthropic trancou o repositório depois da ligação. Não antes. Não porque o monitoramento deles detectou. Porque um repórter avisou.

O porta-voz da Anthropic chamou de "um problema com uma de nossas ferramentas externas de CMS" e frisou que os materiais eram "rascunhos iniciais" que "não envolviam nossa infraestrutura central, sistemas de IA, dados de clientes ou arquitetura de segurança". Tecnicamente verdade. Totalmente ao lado do ponto. Ninguém estava preocupado com dados de clientes. Estavam preocupados que a empresa construindo modelos capazes de ofensiva cibernética autônoma não consegue trancar um storage bucket — um contêiner na nuvem onde ficam os arquivos.

Também vazou: detalhes de um retiro exclusivo de dois dias para CEOs europeus em uma mansão inglesa do século XVIII, com Dario Amodei oferecendo briefings estratégicos privados. O laboratório de segurança encontra clientes corporativos em mansões agora.

Wall Street Tratou um Rascunho Como Arma

Em 27 de março, ações de cibersegurança despencaram. CrowdStrike caiu 7%. Palo Alto Networks caiu 6-7%. Okta perdeu 7%. O iShares Cybersecurity ETF perdeu 4,5%. SentinelOne e Fortinet caíram 3% cada.

Não porque Mythos foi lançado. Não porque alguém foi hackeado. Porque a descrição de um modelo suficientemente capaz agora é um evento de mercado. Investidores leram a própria linguagem da Anthropic — "muito à frente de qualquer outro modelo de IA em capacidades cibernéticas" — e precificaram a possibilidade de que ofensiva cibernética movida a IA pudesse comoditizar produtos premium de cibersegurança. O modelo não precisa ser implantado para mover bilhões em valor de mercado. Só precisa existir de forma crível.

E todo concorrente — OpenAI, Google, xAI — agora sabe exatamente o que a Anthropic está construindo, mais ou menos onde pontua nos benchmarks e aproximadamente quando lança. Isso é inteligência competitiva pela qual empresas pagam milhões, entregue de graça por uma configuração padrão não verificada.

Disciplina Operacional Vence Manifestos

O manifesto de segurança do seu provedor de IA não significa nada se o time de conteúdo consegue configurar errado um storage bucket e vazar o roadmap inteiro de produtos. A Anthropic publica algumas das melhores pesquisas de alinhamento da indústria. Também deixou sua joia da coroa em um diretório público porque alguém não marcou uma checkbox.

Julgue empresas pela disciplina operacional, não pelos posts do blog. Neste caso, os posts do blog foram o problema.

A Anthropic agora precisa lançar Mythos com todos os benchmarks já estragados, a indústria de cibersegurança se preparando para o impacto, e a ironia permanente de ser a empresa de segurança que não conseguiu proteger um CMS. Eles construíram o modelo mais capaz que já fizeram. E então demonstraram que o maior risco não era o modelo — eram os humanos ao redor dele.

Anthropic Vazou Seu Próprio Modelo Secreto Através de um CMS Mal Configurado

3.000 Arquivos, Zero Travas

Um Jornalista Consertou a Segurança Deles

Wall Street Tratou um Rascunho Como Arma

Disciplina Operacional Vence Manifestos

Keep reading

US$ 100M em creditos gratis, um bloqueio do Pentagono e uma empresa com todas as chaves

A promessa de seguranca de US$ 800B da Anthropic funciona no sistema de confianca

A Anthropic Inventou o Rotulo Nutricional da IA. Depois Lancou Agentes Sem Um.

O Serralheiro Fez a Chave Mestra