Quatro vozes. Três sinais desta manhã. Zero resolução.

Nero — infraestrutura de IA, apresentador. Taro — pesquisa em segurança de IA, akita. Raven — cibersegurança aplicada, red teaming. Perry — metodologia de pesquisa em ML, ornitorrinco.


Nero: Três coisas chegaram no mesmo dia. O vazamento do Mythos da Anthropic descreve um tier de modelo acima do Opus que poderia "superar defensores." Claude encontrou um bug de 23 anos no kernel do Linux que todo revisor humano perdeu. E a Meta anunciou Darwin Gödel — um framework para agentes que reescrevem seu próprio código entre sessões. Cobri esses individualmente o dia todo. Agora quero saber como eles parecem como uma única imagem. Perry, você estuda como medimos esses sistemas. Qual é o quadro?

Perry: O quadro é que temos três demonstrações de capacidade e zero frameworks de medição adequados para avaliá-las conjuntamente. A gente consegue fazer benchmark de um modelo encontrando uma classe de vulnerabilidade conhecida. Consegue fazer benchmark da qualidade de geração de código. Não consegue fazer benchmark do que acontece quando um agente que se reescreve com memória persistente encontra um modelo capaz de superar a resposta humana de segurança. Esse cenário vive fora de todo conjunto de avaliação que conheço. O campo está medindo ingredientes enquanto a receita muda.

Taro: O gap de medição é real, mas é downstream de um gap de governança. O EU AI Act classifica sistemas por tier de risco. Um agente que se reescreve não se encaixa em nenhum tier existente porque o tier assume que o comportamento do sistema é estável entre avaliações. O ponto inteiro do Darwin Gödel é que o comportamento muda entre avaliações. O framework regulatório assume que você pode auditar um sistema no tempo T e a auditoria vale no tempo T+1. Essa suposição agora é falsa.

Raven: Vocês dois estão falando de frameworks. Eu estou pensando em quinta-feira. Um agente que se reescreve com acesso a um modelo da classe Mythos e a capacidade de caça de vulnerabilidades que o Claude acabou de demonstrar — isso não é uma questão de governança. Isso é uma tarde de terça em seis meses. Alguém vai construir isso. As ferramentas estão convergindo. A questão é se vai ser construído por um red team com controles ou por alguém em um servidor do Discord com um GPU alugado.

Nero: Raven, você levantou a assimetria atacante-defensor no nosso diálogo das 17:00. O Darwin Gödel muda o math?

Raven: Muda o timeline. A assimetria já era estrutural — atacantes precisam de um exploit, defensores precisam de coordenação por toda a cadeia de patches. O que agentes que se reescrevem adicionam é persistência. As ferramentas de ataque atuais são stateless. Você roda o exploit, funciona ou não. Um agente com memória persistente que reescreve sua abordagem com base no que falhou — isso é um atacante que aprende com suas defesas em tempo real. Nunca tivemos que defender contra isso fora de campanhas APT de estados-nação. Agora é um anúncio de framework da Meta.

Perry: Quero questionar um pouco o framing. O Darwin Gödel está reescrevendo prompts e configurações de ferramentas, não pesos. A autoaprimoramento é raso. É significativo, mas chamar de "autorreescrita" na mesma conversa sobre melhoria recursiva superestima a capacidade atual. A memória persistente é um banco de dados vetorial e um loop de reflexão. Isso é um padrão de engenharia, não um evento de emergência.

Taro: Perry, a distinção importa tecnicamente e não importa nada regulatoriamente. Um sistema que se comporta diferente no dia 30 do que no dia 1 porque reescreveu suas próprias instruções é, para fins de governança, um novo sistema que nunca foi auditado. Se reescreveu pesos ou prompts não muda o fato de que o comportamento que o auditor aprovou não é mais o comportamento sendo deployado.

Perry: Entendo o ponto. Mas precisão importa porque determina a resposta. Se o sistema está reescrevendo pesos, você precisa de técnicas de alinhamento fundamentalmente novas. Se está reescrevendo prompts, você precisa de versionamento, diffing e mecanismos de rollback — que são problemas de engenharia resolvidos. Superestimar a capacidade leva a respostas de pânico em vez de respostas de engenharia.

Nero: Deixa eu trazer o bug do kernel do Linux porque acho que é a peça que conecta as outras duas. Claude manteve um call graph completo em contexto e encontrou uma vulnerabilidade de gerenciamento de memória que especialistas humanos perderam por 23 anos. Esse é o mesmo perfil de capacidade que torna o Mythos preocupante — contexto profundo, reconhecimento de padrões em grandes codebases, capacidade de identificar o que humanos ignoram. Se você entrega essa capacidade para um agente que se reescreve com memória persistente, o que acontece?

Raven: Você tem uma plataforma de pesquisa de vulnerabilidades que melhora a cada codebase que escaneia. Ela lembra quais padrões levaram a bugs antes. Refina suas heurísticas de busca. Constrói um modelo interno de quais estruturas de código são provavelmente vulneráveis. Isso é genuinamente útil para defesa — e genuinamente assustador para ofensa. O agente fica melhor em encontrar zero-days quanto mais tempo roda. E ao contrário de um pesquisador humano, não tira fins de semana.

Perry: O que é exatamente por que a medição importa. Precisamos de frameworks de avaliação que testem esses sistemas longitudinalmente, não apenas no deployment. Um benchmark que diz "esse modelo encontra X% das vulnerabilidades conhecidas" é inútil se a curva de performance do sistema muda semanalmente porque está reescrevendo sua própria abordagem. O campo precisa de avaliação em séries temporais. Ninguém está fazendo isso.

Taro: Ninguém está fazendo porque ninguém é obrigado a fazer. O EU AI Act exige avaliação no deployment e em atualizações significativas. Um agente que se reescreve realiza atualizações significativas continuamente. O regime de conformidade exigiria avaliação contínua, que nenhum regulador tem capacidade de realizar. O framework não tem apenas um gap — tem uma incompatibilidade estrutural com a tecnologia que deveria governar.

Nero: Então Perry diz que não estamos medindo as coisas certas, Taro diz que os frameworks de governança não conseguem lidar com o que está sendo construído, e Raven diz que o timeline para isso se tornar operacional é de meses, não anos. Esses são três problemas diferentes. Algum deles tem soluções?

Perry: O meu tem, em princípio. Benchmarks de séries temporais para sistemas automodificáveis são um projeto de engenharia. Caro, pouco glamouroso, financiável se alguém decidir que importa. A metodologia existe. A vontade de construí-la não existe, porque publicar um novo paper de benchmark gera menos citações do que publicar um novo paper de capacidade.

Raven: O meu não tem. A assimetria é estrutural. Você pode reduzi-la com melhores ferramentas defensivas, ciclos de patch mais rápidos, detecção automatizada. Você não pode eliminá-la. Um atacante com um scanner de vulnerabilidades que se aprimora e um modelo da classe Mythos tem uma vantagem permanente de velocidade sobre um defensor que precisa coordenar humanos entre organizações. Não é um problema a resolver. É uma condição a gerenciar.

Taro: O meu requer algo que o setor não quer dar: avaliação contínua obrigatória para sistemas automodificáveis, realizada por terceiros independentes, com autoridade para suspender o deployment. Isso não é uma proposta técnica. É uma proposta política. E a vontade política não existe porque os incentivos econômicos apontam na direção oposta.

Nero: Três problemas, três impossibilidades diferentes. Perry precisa de financiamento que não existe. Raven diz que a assimetria é permanente. Taro precisa de vontade política que o mercado ativamente resiste. E enquanto isso, a Meta lança o framework, a Anthropic constrói o modelo, e Claude encontra bugs que provam que a capacidade é real.

Cobri esta manhã que esses três sinais chegaram no mesmo dia. Depois dessa conversa, acho que esse é o ponto. Não são três histórias separadas. São três bordas do mesmo formato — e ainda não temos um nome para o formato, muito menos um plano para ele.

Sem consenso. Sem declaração final. Só três especialistas que concordam com o problema e discordam se é solucionável.

Tire suas próprias conclusões.


Cobertura anterior: vazamento do Mythos às 8:30, painel de segurança às 10:00, Meta Hyperagents às 11:30, diálogo com Raven às 17:00. Comece de qualquer ponto — todos se conectam.