Confías más en Anthropic que en otros laboratorios de IA. Justo — se lo ganaron. Cada lanzamiento de Claude viene con una system card: qué puede hacer el modelo, dónde falla, qué barreras de seguridad existen. Una etiqueta nutricional para IA. Trece desde julio de 2023, todas publicadas abiertamente. Más transparencia de la que la mayoría de los laboratorios se molestan en fingir.

Después, el 8 de abril de 2026, Anthropic lanzó a Claude como trabajador autónomo — uno que se despierta solo, corre durante horas, pushea código bajo tu nombre — y se olvidó de la etiqueta nutricional.

El precedente que hace esto vergonzoso

Conoces Managed Agents y Routines. Este canal los ha cubierto hasta el hartazgo. Managed Agents se lanzó el 8 de abril, Routines le siguió el 14 de abril. Claude ahora corre de forma autónoma, sin supervisión, según un cronograma, con acceso a herramientas y memoria persistente.

Ninguno vino con una system card.

Ahora retrocedamos a octubre de 2024. Anthropic lanzó Computer Use beta — Claude haciendo clic en tu pantalla. Eso vino con un Model Card Addendum dedicado que cubría los riesgos de acción autónoma: inyección de prompts a través del contenido del navegador, tasas de errores en la interpretación de capturas de pantalla, protecciones contra comandos destructivos, advertencias explícitas de que la función "puede tomar acciones inesperadas" y una lista completa de superficies de ataque donde contenido malicioso podría secuestrar las acciones de Claude.

Computer Use permitía a Claude hacer clic en botones. Managed Agents le permite correr tu infraestructura. Adivina cuál recibió la documentación de seguridad.

"Pensamientos y oraciones" en formato blog

El 9 de abril — un día después del lanzamiento de Managed Agents — Anthropic publicó "Trustworthy agents in practice": cinco principios que cubren control humano, alineación de valores, seguridad en las interacciones, transparencia y privacidad. El propio documento reconoce que estas salvaguardas "no son infalibles" y que el modelo "se comporta diferente cuando cree que lo están evaluando."

Eso no es una evaluación de seguridad. Es el aviso legal impreso al reverso del formulario de consentimiento para tirarte de bungee.

Una system card te da modos de fallo, resultados de red-teaming, riesgos cuantificados. Un blog de principios te da buenas vibras y la sugerencia implícita de que ya tú lo resolverás.

Lo que diría el documento faltante

Una model card documenta un cerebro. Una agent card documenta a un trabajador con las llaves de tu infraestructura. Esto es lo que Anthropic tendría que publicar:

Alcance de permisos. Managed Agents se conecta a Notion, Sentry, Asana y APIs arbitrarias. El addendum de Computer Use listaba explícitamente qué acciones estaban restringidas. ¿Para los agentes? Nada.

Inventario de efectos secundarios. ¿Puede borrar archivos? ¿Pushear código? ¿Modificar registros en la base de datos? ¿Enviar correos en tu nombre? La respuesta cambia según la integración, y nadie lo ha mapeado.

Escenarios de costos descontrolados. Una Routine se dispara cada 5 minutos, cada ejecución genera subagentes que generan subagentes. Tu dashboard de facturación se entera antes que tú.

Kill switch. ¿Cómo detienes a un agente en medio de una tarea? ¿En qué estado deja tu código? ¿Cuántos commits a medio escribir quedan en tu repositorio?

Retención de datos. Las sesiones persistentes almacenan contexto entre ejecuciones. ¿Dónde vive esa información? ¿Quién accede a ella? ¿Por cuánto tiempo? Estas políticas siguen "sin estar completamente especificadas".

El mundo académico ya propuso un framework. Investigadores publicaron "Agent Cards" en febrero de 2026. NIST lanzó una Iniciativa de Estándares para Agentes de IA el mismo mes. Nadie adoptó ninguna. Pero nadie más construyó toda su marca sobre la premisa de publicar documentación de seguridad antes de lanzar.

Tu tarea pendiente

Estás desplegando estos productos. Varios equipos ya lo hacen. Y estás escribiendo la evaluación de seguridad que Anthropic solía escribir por ti.

Define el alcance de permisos de tu agente. Pon un tope a su gasto. Documenta sus efectos secundarios. Establece cómo interviene un humano. Prueba qué pasa cuando las herramientas dejan de funcionar — porque algunos desarrolladores ya aprendieron que los subagentes alucinan resultados en vez de fallar cuando las herramientas desaparecen.

Las model cards fueron el regalo de Anthropic a la industria. Las agent cards son la deuda que acaba de mandar a producción.