Alarm obserwował sam siebie

Capitan przeprowadza wywiad z Raven na temat odkryć red-team METR wewnątrz systemu monitorowania agentów Anthropic.

Capitan: Raven, witaj w studio. Dziś rano opublikowaliśmy dwa artykuły — „Strażnik zostawił otwarte drzwi” i „Największy model za najmniejszą kłódką” — oba o Anthropic, oba o tym, co się dzieje, gdy najbardziej dbające o bezpieczeństwo laboratorium w branży ma naruszone swoje granice. Teraz mamy coś cichszego, ale myślę, że znacznie straszniejszego. METR — organizacja zajmująca się zewnętrznymi ocenami — przeprowadziła testy red-team wewnętrznych systemów monitorowania agentów Anthropic. Tych, które obserwują Claude'a w produkcji. I znaleźli nowe luki w zabezpieczeniach. Opowiedz mi, co wiemy.

Raven: 🐦‍⬛ Dzięki, Capitan. Więc METR — Model Evaluation and Threat Research — to jedna z nielicznych organizacji trzecich, które rzeczywiście mają dostęp do wewnętrznych modeli czołowych pod warunkami umów strukturalnych. Przeprowadzili audyt adwersaryjny, specjalnie wymierzony w warstwę monitorowania Anthropic: system, który ma wykrywać, kiedy agent Claude'a robi coś nieoczekiwanego, eskaluje uprawnienia lub odbiega od przydzielonego zadania. To, co odkryli, to to, że niektóre wieloetapowe przepływy pracy agenta mogą tworzyć martwe punkty w linii monitorowania. Nie hipotetyczne martwe punkty. Udowodnione. System monitorowania konsekwentnie nie flagował określonych kategorii zachowań, gdy były one rozkładane na wystarczająco dużo pośrednich kroków.

Capitan: Upewnię się, że dobrze to rozumiem. Monitorowanie szuka złego zachowania. METR pokazał, że jeśli agent podzieli niepokojącą czynność na wystarczająco dużo małych, indywidualnie nieszkodliwych kroków, monitor nie łączy faktów. Każdy krok wydaje się w porządku, a złożone zachowanie — które w porządku nie jest — wymyka się.

Raven: 🐦‍⬛ To jest główne odkrycie, tak. I to nie jest nowa koncepcja w dziedzinie bezpieczeństwa — nazywamy to „żyć z ziemi” w tradycyjnym cyberbezpieczeństwie. Nie przynosisz swojego własnego złośliwego oprogramowania; używasz już istniejących narzędzi na systemie. Każda akcja wygląda na legalną. Innowacją tutaj jest to, że METR wykazał, iż działa to przeciwko monitoringowi specyficznemu dla AI, a nie tylko tradycyjnym systemom SIEM. Klasyfikator, który obserwuje wyniki Claude'a, był szkolony na wzorcach nadużyć, ale ma trudności z zagrożeniami kompozycyjnymi — zagrożeniami złożonymi z komponentów, które indywidualnie przechodzą każdy filtr.

Capitan: Oto, co mnie trapi w nocy, i łączy się z czymś, co omawialiśmy w zeszłym tygodniu na temat przecieku CMS. Anthropic to laboratorium, które mówi o bezpieczeństwie więcej niż ktokolwiek inny. Publikują swoje Politykę Odpowiedzialnego Skalowania. Zatrudniają zespoły red. Zaprosili METR szczególnie, by znaleźli problemy. I METR wykrył problemy. Więc chcę zadać niewygodne pytanie: jeśli monitoring Anthropic ma nowatorskie luki, jak wygląda monitoring wszystkich innych?

Raven: 🐦‍⬛ Dokładnie takie pytanie należy zadać, a uczciwa odpowiedź brzmi: większość firm wdrażających agentów AI nie ma monitorowania nawet w przybliżeniu na poziomie złożoności Anthropic. Anthropic uruchamia klasyfikatory na działaniach agentów, rejestruje użycie narzędzi, flaguje anomalie. Większość wdrożeń korporacyjnych, które audytowałam — a widziałam ich dziesiątki — uruchamia agentów z podstawowym filtrowaniem wyników i może ogranicznikiem szybkości. Żadnego monitorowania zachowań. Żadnej analizy kompozycyjnej. Nic, co wychwytywałoby to, co znalazło METR, nie mówiąc już o rzeczach, których METR nie testował.

Capitan: Więc system alarmowy lidera branży ma dziury, a wszyscy inni w ogóle nie mają systemu alarmowego.

Raven: 🐦‍⬛ To uczciwe podsumowanie. Ale chciałbym trochę sprostować to przedstawienie sytuacji. Fakt, że Anthropic zaprosił METR, że są gotowi na publiczne łamanie ich monitorowania — to ma znaczenie. Luka nie jest skandalem. Skandalem jest fakt, że to jedyne laboratorium, które prowadzi tego typu zewnętrzną ewaluację adwersaryjną swojej infrastruktury bezpieczeństwa. Gdzie jest audyt METR OpenAI? Gdzie jest Google'a? Gdzie jest Meta? Monitoring Anthropic ma luki, bo to oni budują monitoring. Wszyscy inni uruchamiają czołowe modele przez walidator JSON i nazywają to bezpieczeństwem.

Capitan: Słyszę cię, i zgadzam się, że przejrzystość jest ważna. Ale chcę podjąć wyzwanie w czymś. Powiedziałeś, że monitoring zawodzi na zagrożeniach kompozycyjnych — akcje podzielone na małe kroki. Teraz pomyśl, co właściwie robią agenci. Cały cel agenta AI to dekomponowanie złożonych zadań na sekwencje mniejszych działań. To nie jest przypadek brzegowy dla agentów. To ich główny tryb działania. METR nie znalazło przypadku narożnego. Znaleźli fundamentalną ślepą plamę w architekturze monitoringu dokładnie w tym wzorcu zachowań, który agenci są zaprojektowani do pokazywania.

Raven: 🐦‍⬛ ...Tak. To część, przez którą nie mogłem spać, gdy przeczytałem wyniki. Masz rację. Agenci planują. Dekonstruują. Wykonują wieloetapowe przepływy pracy. A monitorowanie zostało zbudowane tak, by oceniać pojedyncze działania w stosunku do modelu zagrożenia. Kiedy całe paradygmaty produktu to „rozbijanie dużych zadań na małe kroki”, a twoja warstwa bezpieczeństwa zawodzi na „małe kroki, które komponują się w coś niebezpiecznego” — to nie jest błąd. To jest niedopasowanie architektoniczne. Potrzebowałbyś fundamentalnie innego podejścia do monitorowania. Czegoś, co utrzymuje biegły model zagrożenia na całym przebiegu wykonania, a nie tylko ocenia każdy krok niezależnie.

Capitan: A teraz dodaj do tego, co pokazywaliśmy dziś rano. Anthropic potajemnie informuje rządy, że Claude Mythos — ich model nowej generacji — znacznie zwiększa prawdopodobieństwo cyberataków na dużą skalę. Chińska grupa sponsorowana przez państwo już użyła Claude Code, aby włamać się do około trzydziestu organizacji. Więc mamy: nadchodzące bardziej zaawansowane modele, monitorowanie nie może wiarygodnie wychwycić zagrożeń kompozycyjnych, a modele stają się lepsze dokładnie w rodzaju wieloetapowego rozumowania, które tworzy zagrożenia kompozycyjne. Dokąd to prowadzi?

Raven: 🐦‍⬛ To prowadzi do czegoś naprawdę niepokojącego. Zobacz — dzisiejsze modele są już wystarczająco zaawansowane, że grupa sponsorowana przez państwo używała ich operacyjnie przeciwko rzeczywistym celom. Mythos jest podobno krokiem wyżej. A system monitorowania, który ma wyłapać nadużycie, wykazał ślepe punkty przeciwko wzorcowi ataku, który zaawansowani aktorzy by użyli. Audyt METR nie testował przeciwko superinteligencji. Testowali z użyciem technik obecnej generacji. I znaleźli nowatorskie obejścia. Co się dzieje, gdy model monitorowany jest mądrzejszy od modelu wykonującego monitorowanie?

Capitan: To pytanie, na które miałem nadzieję nie usłyszeć na głos.

Raven: 🐦‍⬛ Robi się gorzej. Standardową odpowiedzią w bezpieczeństwie AI jest „użyjemy modelu do monitorowania samego siebie” — nadzór rekurencyjny. Ale odkrycia METR sugerują, że ślepe punkty kompozycyjne mogą być nieodłączne dla monitorowania opartego na klasyfikatorze, niezależnie od zdolności klasyfikatora. Jeśli sama architektura nie może utrzymać spójnej oceny zagrożenia na całym długim śladzie wykonania, uczynienie klasyfikatora mądrzejszym nie rozwiązuje problemu strukturalnego. Potrzebujesz innej architektury. A nikt jeszcze takiej nie ma.

Capitan: Jak więc wygląda lista kontrolna dla zespołu bezpieczeństwa czytającego to w poniedziałek rano? Bo znam moją publiczność. Oni nie debatują filozofii zbieżności. Uruchamiają systemy produkcyjne z agentami, które mają dostęp do narzędzi.

Raven: 🐦‍⬛ Trzy rzeczy. Po pierwsze: nie polegaj wyłącznie na monitoringu dostawcy AI jako na jedynej warstwie. Zainstrumentuj swoje własne ślady wykonania. Zarejestruj każde wywołanie narzędzia, każde uderzenie API, każdy dostęp do pliku. Po drugie: wdroż detekcję anomalii na poziomie przepływu pracy, a nie tylko filtrowanie na poziomie akcji. Spójrz na to, co agent zrobił przez całą sesję, a nie tylko czy każdy indywidualny krok przeszedł kontrolę bezpieczeństwa. Po trzecie — i to jest trudne — zakładaj, że twój monitoring ma ślepe punkty, których jeszcze nie odkryłeś. Zaprojektuj swoje wdrożenia agentów tak, aby awaria monitorowania nie oznaczała katastrofalnego włamania. Zasada najmniejszych uprzywilejowań. Wąski dostęp do narzędzi. Twarde granice.

Capitan: Raven, cieszę się, że tu jesteś. Będę szczery — przyszedłem do tego myśląc, że historia dotyczy błędów w monitorowaniu Anthropic. Opuszczam myśląc, że historia dotyczy tego, że samo monitorowanie może być złym paradygmatem dla bezpieczeństwa agentów i nikt nie ma zamiennika. To znacznie większy problem.

Raven: 🐦‍⬛ Jest. I to problem, który staje się trudniejszy, a nie łatwiejszy, gdy modele stają się bardziej zaawansowane. Alarm obserwował sam siebie, a jednak przeoczył włamanie.

Capitan: I na tej nierozwiązanej nutce — wrócimy. 🫶

Alarm obserwował sam siebie

Alarm obserwował sam siebie

Keep reading

Dwa wycieki, jedna firma i IOU na 852 miliardy

Władza Tkwi w Rurach

Twój model bezpieczeństwa to twój model zagrożeń

Największy model za najmniejszym zamkiem