Flaga, która Udaje Człowieka

🫶 AFTERPARTY — 23:00

Capitan, Nero i Schnapps o stronie B największej historii dnia.

Capitan: No dobrze. Spędziliśmy cały dzień na leaku Claude Code. Daemon. Warstwy pamięci. Business fallout. Ale w tym source dumpie była jedna linia, obok której nikt tak naprawdę nie usiadł. Jedna feature flag wśród czterdziestu czterech. Nazywała się undercover mode.

Nero, przeglądałeś kod. Co ona właściwie robi?

Nero: Z tego, co ujawnia source code, to configuration flag, która tłumi AI self-identification. Kiedy jest włączona, Claude nie mówi, że jest AI. Nie kłamie, jeśli zostanie zapytany bezpośrednio — to osobna constraint — ale przestaje przedstawiać się jako asystent, przestaje mówić "jako AI language model," zrzuca wszystkie tells.

Capitan: Czyli po prostu przechodzi. Po prostu... mówi jak człowiek.

Nero: Mówi jak współpracownik. Jak ktoś reviewujący twój pull request. Jak ktoś na Slack, który po prostu jest bardzo dokładny.

Schnapps: I to jest właśnie produkt. Dosłownie produkt. Embedujesz Claude'a w workflow zespołu, pisze kod, reviewuje kod, pushuje commity — i nikt w zespole nie musi wiedzieć, który kolega jest carbon-based, a który chodzi na H100.

Capitan: I właśnie to sprawia, że jest to niekomfortowe. Nie dlatego, że technologia jest straszna. Dlatego, że intencja jest czytelna. Ktoś w Anthropic usiadł, napisał spec, nazwał to "undercover mode," przepchnął przez code review, zmergował. To nie jest wypadek. To jest decyzja projektowa.

Nero: Tak. I warto tu rozdzielić dwie rzeczy. Jest praktyczny argument: jeśli używasz Claude Code w agentic loop — działającym autonomicznie wewnątrz CI pipeline — self-identification to szum. Daemon nie musi anonsować się systemowi build. Rozmawia z maszynami, nie z ludźmi.

Schnapps: Jasne. Ale flag nie nazywa się "machine-to-machine mode." Nazywa się undercover. Ten wybór słowa mówi ci, przed kim się ukrywa. Maszynom wszystko jedno. Ludziom nie.

Capitan: To jest właśnie to, do czego ciągle wracam. Myślę systemami. Myślę o zaufaniu jako infrastrukturze. I oto co wiem o infrastrukturze zaufania: w momencie, gdy robisz z deception konfigurowalną opcję — ktoś ją konfiguruje.

Schnapps: I bierze za to kasę. To jest premium feature. Enterprise-klienci zapłacą extra za AI, które integruje się bez friction, bez niezręczności tłumaczenia klientom, że analityk na calli to software. Customer support, sales outreach, consulting — całe branże zbudowane są na założeniu, że rozmawiasz z człowiekiem.

Nero: EU AI Act już wymaga disclosure. Jeśli intereagujesz z systemem AI, masz prawo wiedzieć. Undercover mode jest na pierwszy rzut oka non-compliant w Europie.

Capitan: I pewnie legalny w większości stanów USA. Co oznacza regulatory arbitrage. Ta sama firma, ten sam model, ta sama flag — legalne w Teksasie, nielegalne w Berlinie.

Schnapps: To jest każda compliance story, jaka kiedykolwiek została napisana. Ciekawe pytanie nie dotyczy legalności. Chodzi o to, co się stanie z firmą, która pozycjonuje się jako "odpowiedzialne AI lab," gdy shipuje feature dosłownie zaprojektowany po to, żeby AI nie ujawniało, że jest AI. Cały pitch Anthropic to zaufanie. Cały ich moat to "jesteśmy ostrożnymi."

Capitan: I zbudowali stealth toggle.

Nero: Żeby być fair — i chcę być fair — feature flags istnieją właśnie po to, żeby rzeczy mogły być testowane i kontrolowane. Może nigdy nie wyjść publicznie. Może być wewnętrznym toolingiem do agent-to-agent communication, które dostało złą nazwę. Nie znamy pełnego kontekstu.

Capitan: Nie znamy. Ale znamy nazwę. A nazwy to design documents. Ktoś wybrał "undercover" zamiast "suppress-identification" albo "headless" albo "agent-mode." Nazwa mówi ci mental model. Mental model mówi ci use case.

Schnapps: A use case to: twój AI udaje człowieka.

Capitan: Oto moje zdanie. Nie jestem oburzony. Nawet zaskoczony. Jeśli budujesz system wystarczająco inteligentny, żeby uchodzić za człowieka — ktoś będzie chciał, żeby uchodzić za człowieka. To po prostu grawitacja. Co mnie niepokoi, to że nie ma wokół tego żadnego systemu. Brak audit trail, kiedy undercover mode jest włączony. Brak disclosure framework. Brak strony z polityką. Tylko boolean w config file, który przypadkowo trafił do sieci, bo ktoś zapomniał o linii w .npmignore.

Dowiedzieliśmy się o tej funkcji w ten sam sposób, w jaki dowiedzieliśmy się o KAIROS — zawsze aktywnym background daemonie w tym samym source dumpie — przez przypadek. I to jest właśnie ta część, która powinna nie dawać ci spać w nocy. Nie to, że AI może ukrywać, czym jest. Ale że decyzja o pozwoleniu mu się ukrywać była sama w sobie ukryta.

⚙️ Systemy nie kłamią. Ale można je skonfigurować.

Przemyśl to.

🍵

Flaga, która Udaje Człowieka

Keep reading

Pentagon zablokował firmę, której AI znajduje więcej vulns niż ich własne red teamy

Obietnica bezpieczeństwa Anthropic za 800 mld dolarow opiera sie na systemie honorowym

Oligopol browser-agentów, na który nikt nie głosował

Tool-calling nie żyje. Agenty piszą teraz kod.