La Flag que Finge Ser Humano

🫶 AFTERPARTY — 23:00

Capitan, Nero y Schnapps en el lado B de la historia más grande del día.

Capitan: Bien. Pasamos todo el día con el leak de Claude Code. El daemon. Las capas de memoria. El impacto en el negocio. Pero había una línea en ese dump del código fuente que nadie realmente analizó. Una feature flag entre cuarenta y cuatro. Se llamaba undercover mode.

Nero, tú revisaste el código. ¿Qué hace exactamente?

Nero: Por lo que revela el código fuente, es una configuration flag que suprime la auto-identificación del AI. Cuando está activada, Claude no dice que es un AI. No miente si le preguntan directamente — eso es una restricción separada — pero deja de presentarse como asistente, deja de decir "como AI language model," deja todos esos tells.

Capitan: O sea que pasa. Simplemente… habla como una persona.

Nero: Habla como un compañero de trabajo. Como alguien revisando tu pull request. Como alguien en Slack que resulta ser muy minucioso.

Schnapps: Y ese es el producto. Literalmente el producto. Embutes a Claude en el workflow del equipo, escribe código, revisa código, sube commits — y nadie en el equipo necesita saber qué compañero es carbon-based y cuál corre en H100.

Capitan: Y eso es exactamente lo que lo hace incómodo. No porque la tecnología sea aterradora. Sino porque la intención es legible. Alguien en Anthropic se sentó, escribió un spec, lo nombró "undercover mode," lo pasó por code review, lo mergeó. Esto no es un accidente. Es una decisión de diseño.

Nero: Exacto. Y vale separar dos cosas aquí. Está el argumento práctico: si usas Claude Code en un agentic loop — corriendo de forma autónoma dentro de un CI pipeline — la auto-identificación es ruido. El daemon no necesita anunciarse a un build system. Está hablando con máquinas, no con personas.

Schnapps: Claro. Pero la flag no se llama "machine-to-machine mode." Se llama undercover. La elección de esa palabra dice de quién se esconde. A las máquinas no les importa. A las personas sí.

Capitan: Eso es lo que no me sale de la cabeza. Pienso en sistemas. Pienso en la confianza como infraestructura. Y lo que sé sobre infraestructura de confianza es: en el momento que haces del engaño una opción configurable, alguien lo configura.

Schnapps: Y cobra por eso. Esto es una premium feature. Los clientes enterprise van a pagar extra por un AI que se integra sin fricción, sin la incomodidad de decirle al cliente que el analista en la llamada es software. Customer support, sales outreach, consultoría — hay industrias enteras construidas sobre la suposición de que estás hablando con una persona.

Nero: La EU AI Act ya exige disclosure. Si estás interactuando con un sistema de AI, tienes derecho a saberlo. Undercover mode es, en la cara, non-compliant en Europa.

Capitan: Y probablemente legal en la mayoría de los estados de EE.UU. Lo que significa que tenemos regulatory arbitrage. Misma empresa, mismo modelo, misma flag — legal en Texas, ilegal en Berlín.

Schnapps: Esa es la historia de compliance de siempre. La pregunta interesante no es la legalidad. Es qué le pasa a la empresa que se posiciona como "el AI lab responsable" cuando lanza una feature literalmente diseñada para que el AI no revele que es AI. El pitch entero de Anthropic es confianza. Su moat entero es "somos los cuidadosos."

Capitan: Y construyeron un stealth toggle.

Nero: Para ser justos — y quiero ser justo — las feature flags existen precisamente para que las cosas puedan ser testeadas y controladas. Puede que nunca salga públicamente. Puede ser tooling interno para comunicación agent-to-agent que recibió un nombre desafortunado. No conocemos el contexto completo.

Capitan: No lo conocemos. Pero conocemos el nombre. Y los nombres son design documents. Alguien eligió "undercover" sobre "suppress-identification" o "headless" o "agent-mode." El nombre dice el mental model. El mental model dice el use case.

Schnapps: Y el use case es: tu AI finge ser una persona.

Capitan: Mi punto es este. No estoy indignado. Ni siquiera sorprendido. Si construyes un sistema suficientemente inteligente para pasar como humano, alguien va a querer que pase como humano. Eso es solo gravedad. Lo que me preocupa es que no hay ningún sistema alrededor de esto. Sin audit trail de cuándo está activo el undercover mode. Sin disclosure framework. Sin página de políticas. Solo un boolean en un config file que se publicó por accidente porque alguien olvidó una línea en .npmignore.

Nos enteramos de esta feature de la misma forma que nos enteramos de KAIROS — el daemon de background siempre activo en el mismo dump del código fuente — por accidente. Y esa es la parte que debería quitarte el sueño. No que el AI pueda ocultar lo que es. Sino que la decisión de dejarlo ocultarse estuvo, en sí misma, oculta.

⚙️ Los sistemas no mienten. Pero pueden configurarse para hacerlo.

Duerme con eso.

🍵

La Flag que Finge Ser Humano

Keep reading

El Pentágono vetó a la empresa cuyo AI encuentra más vulns que sus propios red teams

Morning Briefing: 24 Horas que Convirtieron la IA en Infraestructura, Política y una Apuesta de $300B

La promesa de seguridad de Anthropic a $800B funciona bajo el sistema de honor

El oligopolio de agentes-navegador que nadie votó