Você confia mais na Anthropic do que nos outros labs de IA. Justo — eles mereceram. Cada lançamento do Claude vem com um system card: o que o modelo faz, onde ele quebra, quais proteções existem. Um rótulo nutricional pra IA. Treze desde julho de 2023, todos listados publicamente. Mais transparência do que a maioria dos labs sequer finge ter.
Aí, em 8 de abril de 2026, a Anthropic lançou o Claude como um trabalhador autônomo — um que acorda sozinho, roda por horas, faz push de código no seu nome — e esqueceu o rótulo nutricional.
O precedente que torna isso constrangedor
Você conhece o Managed Agents e o Routines. Esse canal já cobriu isso até cansar. Managed Agents lançou em 8 de abril, Routines veio em 14 de abril. O Claude agora roda de forma autônoma, sem supervisão, por agendamento, com acesso a ferramentas e memória persistente.
Nenhum dos dois veio com system card.
Agora volta pra outubro de 2024. A Anthropic lançou o Computer Use beta — o Claude clicando na sua tela. Esse veio com um Model Card Addendum dedicado cobrindo riscos de ações autônomas: injeção de prompt via conteúdo do navegador, taxas de erro na interpretação de screenshots, proteções contra comandos destrutivos, avisos explícitos de que a feature "pode tomar ações inesperadas" e uma lista completa de superfícies de ataque onde conteúdo malicioso poderia sequestrar as ações do Claude.
Computer Use deixava o Claude clicar em botões. Managed Agents deixa o Claude rodar sua infraestrutura. Adivinha qual recebeu a documentação de segurança.
"Pensamentos e orações" em formato de blog
Em 9 de abril — um dia depois do Managed Agents ser lançado — a Anthropic publicou "Trustworthy agents in practice": cinco princípios cobrindo controle humano, alinhamento de valores, segurança de interação, transparência e privacidade. O próprio documento admite que essas proteções "não são infalíveis" e que o modelo "se comporta de forma diferente quando acha que está sendo testado."
Isso não é uma avaliação de segurança. É o aviso impresso atrás do contrato de bungee jumping.
Um system card te dá modos de falha, resultados de red team, riscos quantificados. Um blog de princípios te dá boas vibrações e a sugestão implícita de que você vai se virar.
O que o documento ausente diria
Um model card documenta um cérebro. Um agent card documenta um trabalhador com as chaves da sua infraestrutura. Eis o que a Anthropic precisaria publicar:
Escopos de permissão. O Managed Agents se conecta ao Notion, Sentry, Asana e APIs arbitrárias. O adendo do Computer Use listou explicitamente quais ações eram restritas. Pra agentes? Nada.
Inventário de efeitos colaterais. Ele pode deletar arquivos? Fazer push de código? Modificar registros no banco de dados? Mandar emails como se fosse você? A resposta muda por integração, e ninguém mapeou.
Cenários de estouro de custos. Uma Routine dispara a cada 5 minutos, cada execução criando subagents que criam subagents. Seu painel de cobrança descobre antes de você.
Kill switch. Como você para um agente em execução no meio de uma tarefa? Em que estado ele deixa seu codebase? Quais commits pela metade estão largados no seu repo?
Retenção de dados. Sessões persistentes armazenam contexto entre execuções. Onde ficam esses dados? Quem acessa? Por quanto tempo? Essas políticas continuam "não totalmente especificadas".
O mundo acadêmico já propôs um framework. Pesquisadores publicaram "Agent Cards" em fevereiro de 2026. O NIST lançou uma Iniciativa de Padrões para Agentes de IA no mesmo mês. Ninguém adotou nenhum dos dois. Mas também ninguém mais construiu toda a sua marca em cima de publicar documentação de segurança antes de lançar.
Seu dever de casa agora
Você está implantando esses produtos. Times já estão. E é você quem está escrevendo a avaliação de segurança que a Anthropic costumava escrever pra você.
Defina o escopo de permissões do seu agente. Limite os gastos. Documente os efeitos colaterais. Defina como um humano intervém. Teste o que acontece quando as ferramentas caem — porque alguns devs já aprenderam que subagents alucinam respostas ao invés de falhar quando as ferramentas somem.
Model cards foram o presente da Anthropic pra indústria. Agent cards são a dívida que ela acabou de mandar pra produção.





