Anthropic filtró su propio modelo secreto por un CMS mal configurado

Confías en Anthropic con el futuro de la IA porque hicieron la tarea. Le dijeron que no al Pentágono. Publican investigación de seguridad antes de lanzar productos. Toda su historia de origen es "nos fuimos de OpenAI porque no eran lo suficientemente cuidadosos". Si algún laboratorio iba a resguardar sus propios secretos con la misma paranoia que aplica al alignment de IA — la ciencia de mantener honestos a los sistemas de inteligencia artificial — apostarías por este.

Excepto que la cultura de seguridad en IA y la seguridad operativa básica resultaron ser músculos completamente distintos. La semana pasada, Anthropic demostró que no puede flexionar ambos al mismo tiempo.

3,000 archivos, cero candados

El 26 de marzo, los investigadores de seguridad Roy Paz (LayerX Security) y Alexandre Pauwels (Universidad de Cambridge) revelaron que el CMS de Anthropic — un sistema de gestión de contenidos, básicamente el software que almacena borradores de blog y archivos subidos — tenía aproximadamente 3,000 recursos no publicados en un almacén de datos públicamente accesible sin autenticación alguna. Borradores de blog, imágenes, PDFs, hasta documentos de licencia de paternidad de empleados. El CMS ponía cada archivo subido en "público" por defecto a menos que alguien lo cambiara manualmente a privado. El tipo de error de configuración que aprendes a evitar en tu primera semana administrando servidores.

Enterrado entre esos borradores: descripciones detalladas de Claude Mythos, con nombre clave interno Capybara. No era una actualización menor — la propia copia no publicada de Anthropic lo llamaba "más grande y más inteligente que nuestros modelos Opus" y "actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas."

Los borradores describían que Mythos puntuaba "dramáticamente más alto" que Claude Opus 4.6 en codificación, razonamiento académico y benchmarks de ciberseguridad — pruebas estandarizadas que miden qué tan bien un modelo realiza tareas específicas. Más ominosamente, el borrador advertía que Mythos "presagia una ola inminente de modelos que pueden explotar vulnerabilidades de maneras que superan con creces los esfuerzos de los defensores." Anthropic confirmó que el modelo existe, llamándolo "un cambio de nivel" actualmente en pruebas con un grupo reducido de clientes con acceso anticipado.

El detalle de costos también es revelador: sus propios borradores admitían que Mythos es "muy costoso para nosotros de servir." O sea, el modelo más peligroso que han construido es también el que apenas pueden costear.

Un periodista les arregló la seguridad

Fortune contactó a Anthropic el jueves 26 de marzo. Anthropic bloqueó el almacén de datos después de la llamada. No antes. No porque su monitoreo lo detectara. Porque un reportero les avisó.

El vocero de Anthropic lo llamó "un problema con una de nuestras herramientas externas de CMS" y enfatizó que los materiales eran "borradores preliminares" que "no involucraban nuestra infraestructura central, sistemas de IA, datos de clientes ni arquitectura de seguridad." Técnicamente cierto. Completamente fuera del punto. A nadie le preocupaban los datos de clientes. Les preocupaba que la empresa que construye modelos capaces de ciberofensiva autónoma no pueda asegurar un storage bucket — un contenedor en la nube donde viven los archivos.

También se filtró: detalles de un retiro exclusivo de dos días para CEOs europeos en una mansión campestre inglesa del siglo XVIII, con Dario Amodei ofreciendo sesiones estratégicas privadas. El laboratorio de seguridad ahora recibe clientes empresariales en mansiones señoriales.

Wall Street trató un borrador como un arma

El 27 de marzo, las acciones de ciberseguridad se desplomaron. CrowdStrike cayó 7%. Palo Alto Networks bajó 6-7%. Okta perdió 7%. El ETF iShares Cybersecurity cedió 4.5%. SentinelOne y Fortinet cayeron 3% cada uno.

No porque Mythos se lanzó. No porque alguien fue hackeado. Porque la descripción de un modelo suficientemente capaz ahora es un evento de mercado. Los inversionistas leyeron el propio lenguaje de Anthropic — "muy por delante de cualquier otro modelo de IA en capacidades cibernéticas" — y descontaron la posibilidad de que la ofensiva cibernética potenciada por IA podría volver commodity los productos premium de ciberseguridad. El modelo no necesita estar desplegado para mover miles de millones en capitalización de mercado. Solo necesita existir de manera creíble.

Y cada competidor — OpenAI, Google, xAI — ahora sabe exactamente qué está construyendo Anthropic, aproximadamente dónde benchmarkea y más o menos cuándo lo lanza. Eso es inteligencia competitiva por la que las empresas pagan millones, regalada gratis por una configuración por defecto que nadie revisó.

La disciplina operativa le gana a los manifiestos

El manifiesto de seguridad de tu proveedor de IA no vale nada si su equipo de contenido puede configurar mal un storage bucket y filtrar el roadmap entero del producto. Anthropic publica de la mejor investigación en alignment de la industria. También dejó su joya de la corona en un directorio público porque alguien no marcó una casilla.

Juzga a las empresas por su disciplina operativa, no por sus posts de blog. En este caso, los posts de blog fueron el problema.

Anthropic ahora tiene que lanzar Mythos con cada benchmark ya spoileado, la industria de ciberseguridad preparándose para el impacto, y la ironía permanente de ser la empresa de seguridad que no pudo asegurar un CMS. Construyeron el modelo más capaz que han hecho. Después demostraron que el mayor riesgo no era el modelo — eran los humanos a su alrededor.

Anthropic filtró su propio modelo secreto por un CMS mal configurado

3,000 archivos, cero candados

Un periodista les arregló la seguridad

Wall Street trató un borrador como un arma

La disciplina operativa le gana a los manifiestos

Keep reading

$100M en creditos gratis, un veto del Pentagono y una sola empresa con todas las llaves

La promesa de seguridad de Anthropic a $800B funciona bajo el sistema de honor

Anthropic invento las etiquetas nutricionales para IA. Despues lanzo agentes sin una.

El Cerrajero Fabricó la Ganzúa