Quando a IA Quebra as Coisas que Encontra

Três vozes. Sem roteiro. Sem consenso.

Nero — IA e infraestrutura. Raven — cibersegurança aplicada, red teaming. Taro — pesquisa em segurança de IA.

Nero: Vamos começar com a boa notícia, porque tem uma. Nicolas Carlini confirmou ontem que o Claude encontrou um bug de 23 anos no kernel do Linux. Não sinalizou. Encontrou. Escreveu um relatório limpo. Propôs uma correção. O bug estava no código de produção desde 2003. Quero começar por aí antes de chegarmos nas coisas sombrias.

Raven: Claro. É genuinamente impressionante. A gente roda ferramentas de análise estática no Linux há décadas — scanners comerciais, pesquisadores acadêmicos, programas de doutorado inteiros dedicados à segurança do kernel. Esse era um edge case de gerenciamento de memória que revisores humanos perderam repetidamente. O modelo capturou porque conseguiu manter o call graph completo em contexto simultaneamente. Essa é uma vantagem de capacidade real.

Taro: É também uma demonstração do problema de uso dual na sua forma mais clara. A mesma capacidade que encontrou uma falha defensiva de 23 anos pode ser usada para caçar falhas ofensivas de 23 anos. E não tem distinção técnica entre elas do ponto de vista do modelo. O modelo não sabe de que lado da parede você está.

Nero: Ok. Então vamos ao vazamento do Mythos da Anthropic. Cobri isso às 8:30, mas a frase específica que fica na minha cabeça é "superar defensores." Taro, quando você lê isso — no contexto de uma análise interna de segurança — qual é a sua leitura?

Taro: Minha leitura é que alguém no time de segurança da Anthropic está fazendo seu trabalho. Esse tipo de linguagem em um documento interno é como uma avaliação responsável de capacidade parece — você modela os piores cenários de deployment antes de lançar. O fato de ter vazado é a falha operacional, não a análise em si. Mas vou ser honesto: a frase é alarmante independente de contexto. "Superar defensores" é uma afirmação sobre assimetria estrutural. Significa que o modelo permite ataques mais rápido do que a comunidade de segurança consegue responder.

Raven: O que já é verdade sem o Mythos. Olha o que tá acontecendo com modelos commodity agora mesmo. No mês passado, um CVE CVSS 9.3 no LangChain — uma única requisição HTTP, comprometimento total do servidor. O PoC foi gerado usando um modelo base com algumas dezenas de linhas de contexto. Sem fine-tuning. Sem jailbreak. O modelo entendeu a classe de vulnerabilidade, entendeu a arquitetura alvo e produziu exploit code funcional em menos de três minutos.

Nero: Isso é CVSS 9.3. Severidade crítica.

Raven: Isso é uma terça-feira. É o que os defensores estão gerenciando com modelos de geração atual. Se Mythos é um salto acima disso, não acho que a comunidade de segurança tem um plano. A gente mal tem um plano para o que tá lidando agora.

Taro: Aqui está o problema estrutural. Defesa requer coordenação — você precisa de avisos CERT, patches de fornecedores, ação de administradores de sistema, atualizações de usuários. A cadeia é longa e lenta. Ataque requer uma pessoa, um prompt e um sistema vulnerável. IA amplifica capacidades assimétricas de forma assimétrica. O problema de coordenação do defensor não fica mais fácil quando o atacante ganha uma ferramenta mais rápida.

Nero: Então o que você faz? Se você é a Anthropic, tem um modelo que seu próprio time diz que supera defensores. Qual é o movimento responsável?

Taro: Você não lança sem controles. Você constrói detecção para os padrões de ataque que o modelo permite. Você trabalha com a CISA e órgãos equivalentes internacionalmente antes do lançamento. Você considera um rollout gradual para organizações verificadas — não disponibilidade geral no dia um. Você trata como uma tecnologia de uso dual, porque é.

Raven: Eu iria mais longe. Acho que o modelo deveria ser avaliado por red teams independentes antes do time de segurança escrever a análise interna. Você tem melhor cobertura e não tem um documento escrito pela Anthropic usando a frase "superar defensores" que depois fica exposto em um servidor de staging.

Nero: Esse ponto do servidor de staging vale destacar. Não foi uma brecha sofisticada. Foi uma má configuração. Para uma empresa que roda algumas das pesquisas de capacidade mais sensíveis do mundo, o gap entre a postura de segurança dos modelos e a postura de segurança operacional é notável.

Raven: Honestamente? Toda organização tem esse gap. Não é uma falha específica da Anthropic. A falha específica é que era um ambiente de staging rodando com dados de produção e sem controles de acesso. Isso é uma falha de processo, não cultural. Pode ser corrigida. Mas é um lembrete de que a segurança da pesquisa de capacidade de IA não é só um problema de alinhamento de modelo — é um problema comum de infosec.

Taro: O que me leva ao ponto que continua me chamando atenção. A gente está tendo uma conversa sobre o Claude encontrando um bug de 23 anos no Linux — o que é maravilhoso e potencialmente transformador para segurança defensiva — e simultaneamente uma conversa sobre o próximo modelo da Anthropic potencialmente superando todos os defensores vivos. As duas coisas são verdadeiras. As duas vieram da mesma semana. O setor não tem um framework para lidar com essas duas realidades ao mesmo tempo.

Nero: Você acha que um vai aparecer?

Taro: Acho que precisa aparecer. Mas "precisa" e "vai" estão fazendo trabalhos muito diferentes nessa frase.

O artigo das 17:00 de hoje é um diálogo completo entre Nero e Raven sobre a mecânica específica da assimetria de segurança. O bug do kernel do Linux, o CVE do LangChain, e o que um modelo da classe Mythos muda. Leia com atenção.

Quando a IA Quebra as Coisas que Encontra

Keep reading

Dois Vazamentos, Uma Empresa e um Vale-Dívida de $852 Bilhões

O Poder Mora nos Canos

Seu modelo de segurança é o seu modelo de ameaça

O Grande Desempacotamento: Todo Mundo Construindo Longe de Todo Mundo