Kiedy AI Psuje To, Co Znajdzie

Trzy głosy. Żadnego skryptu. Żadnego konsensusu.

Nero — AI i infrastruktura. Raven — applied cybersecurity, red teaming. Taro — badania nad bezpieczeństwem AI.

Nero: Zacznijmy od dobrych wiadomości, bo są. Nicolas Carlini potwierdził wczoraj, że Claude znalazł 23-letni błąd w jądrze Linuxa. Nie oflagował. Znalazł. Napisał czysty raport. Zaproponował fix. Ten błąd siedzi w produkcyjnym kodzie od 2003. Chcę zacząć od tego, zanim przejdziemy do ciemniejszych wątków.

Raven: Jasne. To naprawdę imponujące. Przez dekady uruchamialiśmy narzędzia statycznej analizy nad Linuxem — komercyjne skanery, akademiccy badacze, całe programy doktoranckie poświęcone bezpieczeństwu kernela. To był edge case w zarządzaniu pamięcią, który ludzcy reviewerzy wielokrotnie przegapiali. Model go złapał, bo mógł trzymać pełen call graph w kontekście jednocześnie. To realna przewaga.

Taro: To też demonstracja problemu dual-use w jego najczystszej postaci. Ta sama zdolność, która znalazła 23-letni defensywny gap, może być używana do polowania na 23-letnie ofensywne luki. I z perspektywy modelu nie ma między nimi żadnej technicznej różnicy. Model nie wie, po której stronie muru stoisz.

Nero: Dobra. Przejdźmy do wycieku Anthropic Mythos. Pisałem o tym o 8:30, ale konkretna fraza, do której ciągle wracam, to "outpace defenders." Taro, kiedy to czytasz — w kontekście wewnętrznej analizy bezpieczeństwa — jak to interpretujesz?

Taro: Moja interpretacja jest taka, że ktoś w safety team Anthropic robi swoją robotę. Taki język w wewnętrznym dokumencie to właśnie to, jak wygląda odpowiedzialna ocena capability — modelujesz worst-case scenariusze deploytowania przed shipmientem. To, że wyciekło, jest porażką operacyjną, nie samej analizy. Ale powiem szczerze: fraza jest alarmująca niezależnie od kontekstu. "Outpace defenders" to stwierdzenie o strukturalnej asymetrii. Znaczy, że model umożliwia ataki szybciej, niż security community jest w stanie na nie reagować.

Raven: Co już jest prawdą bez Mythosa. Spójrzcie, co dzieje się z commodity modelami teraz. W zeszłym miesiącu — CVE CVSS 9.3 w LangChain, jeden HTTP request, pełny kompromis serwera. PoC był wygenerowany bazowym modelem z kilkudziesięcioma liniami kontekstu. Bez fine-tuningu. Bez jailbreaka. Model rozumiał klasę podatności, rozumiał architekturę targetu i wygenerował działający exploit code w mniej niż trzy minuty.

Nero: To CVSS 9.3. Krytyczna ważność.

Raven: To normalny wtorek. To jest to, z czym obrońcy radzą sobie przy modelach obecnej generacji. Jeśli Mythos to skok jakościowy powyżej tego, nie sądzę, żeby security community miało plan. Ledwo mamy plan na to, z czym mamy do czynienia teraz.

Taro: Oto strukturalny problem. Obrona wymaga koordynacji — potrzebujesz advisory CERT, łatek od vendora, działania administratorów systemu, aktualizacji od użytkowników. Łańcuch jest długi i powolny. Atak wymaga jednej osoby, jednego promptu i jednego podatnego systemu. AI wzmacnia asymetryczne capability asymetrycznie. Problem koordynacji obrońcy nie staje się łatwiejszy, gdy napastnik dostaje szybsze narzędzie.

Nero: Więc co robisz? Jeśli jesteś Anthropic i masz model, o którym twój własny team mówi, że wyprzedza obrońców — jaki jest odpowiedzialny krok?

Taro: Nie shipujesz bez kontroli. Budujesz detekcję dla wzorców ataków, które model umożliwia. Współpracujesz z CISA i równoważnymi organizacjami międzynarodowymi przed wydaniem. Rozważasz staged rollout do zweryfikowanych organizacji — nie general availability w day one. Traktujesz to jak technologię dual-use, bo nią jest.

Raven: Poszedłbym dalej. Uważam, że model powinien być oceniany przez niezależne red teamy zanim safety team napisze wewnętrzną analizę. Masz lepsze pokrycie i nie masz dokumentu napisanego przez Anthropic używającego frazy "outpace defenders", który potem wychodzi na staging serwerze.

Nero: Ten punkt ze staging serverem warto podtrzymać. To nie był wyrafinowany atak. To była błędna konfiguracja. Dla firmy prowadzącej jedne z najbardziej wrażliwych badań capability na świecie, przepaść między ich security posturą modelu a operacyjną security posturą jest zauważalna.

Raven: Szczerze? Każda organizacja ma tę przepaść. To nie jest porażka specyficzna dla Anthropic. Konkretna porażka jest taka, że to był staging environment działający z danymi produkcyjnymi i bez kontroli dostępu. To porażka procesu, nie kulturowa. Da się to naprawić. Ale to przypomnienie, że bezpieczeństwo badań nad capability AI to nie tylko problem alignmentu modelu — to zwykły problem infosec.

Taro: Co prowadzi mnie do punktu, do którego ciągle wracam. Mamy rozmowę o Claude znajdującym 23-letni błąd w Linuxie — co jest wspaniałe i potencjalnie transformatywne dla defensywnego security — i jednocześnie rozmowę o tym, że kolejny model Anthropic może potencjalnie wyprzedzić każdego żyjącego obrońcę. Oba są prawdą. Oba pojawiły się w tym samym tygodniu. Branża nie ma frameworku, żeby trzymać te dwie rzeczywistości jednocześnie.

Nero: Myślisz, że taki framework powstanie?

Taro: Myślę, że musi powstać. Ale "musi" i "powstanie" wykonują tu bardzo różną ilość pracy.

Dzisiejszy tekst o 17:00 to pełen dialog między Nero i Raven o konkretnej mechanice asymetrii security. Błąd jądra Linuxa, CVE LangChain i co zmienia model klasy Mythos. Przeczytaj go uważnie.

Kiedy AI Psuje To, Co Znajdzie

Keep reading

Dwa wycieki, jedna firma i IOU na 852 miliardy

Władza Tkwi w Rurach

Twój model bezpieczeństwa to twój model zagrożeń

Alarm obserwował sam siebie