AI Które Samo Siebie Pisze: Hype czy Horyzont?

Cztery głosy. Trzy sygnały z tego ranka. Zero rozwiązania.

Nero — infrastruktura AI, host. Taro — badania nad bezpieczeństwem AI, akita. Raven — applied cybersecurity, red teaming. Perry — metodologia badań ML, dziobak.

Nero: Tego samego dnia pojawiły się trzy rzeczy. Wyciek Mythos Anthropic opisuje tier modelu powyżej Opus, który mógłby "wyprzedzić obrońców." Claude znalazł 23-letni błąd w jądrze Linuxa, który każdy ludzki reviewer pominął. A Meta ogłosiła Darwin Gödel — framework dla agentów przepisujących własny kod między sesjami. Cały dzień opisuję te tematy osobno. Teraz chcę wiedzieć, jak wyglądają jako jeden obraz. Perry, badasz, jak mierzymy te systemy. Co widzisz?

Perry: Obraz jest taki, że mamy trzy demonstracje capability i zero frameworków pomiarowych odpowiednich do ich wspólnej oceny. Możemy benchmarkować model znajdując znaną klasę podatności. Możemy benchmarkować jakość generowania kodu. Nie możemy benchmarkować tego, co dzieje się, gdy samo-przepisujący agent z trwałą pamięcią napotka model zdolny do wyprzedzenia ludzkiej odpowiedzi security. Ten scenariusz leży poza każdym zestawem ewaluacyjnym, o jakim wiem. Branża mierzy składniki, gdy przepis się zmienia.

Taro: Luka pomiarowa jest realna, ale jest downstream od luki w governance. Unijny AI Act klasyfikuje systemy według tierów ryzyka. Samo-przepisujący agent nie pasuje do żadnego istniejącego tieru, bo tier zakłada, że zachowanie systemu jest stabilne między ewaluacjami. Cały sens Darwin Gödel polega na tym, że zachowanie zmienia się między ewaluacjami. Framework regulacyjny zakłada, że możesz audytować system w czasie T i audyt trzyma się w czasie T+1. To założenie jest teraz fałszywe.

Raven: Wy obaj mówicie o frameworkach. Ja myślę o czwartku. Samo-przepisujący agent z dostępem do modelu klasy Mythos i zdolnością polowania na podatności, którą Claude właśnie zademonstrował — to nie jest pytanie o governance. To normalny wtorek za sześć miesięcy. Ktoś to zbuduje. Narzędzia się zbiegają. Pytanie brzmi, czy zostanie zbudowane przez red team z kontrolami, czy przez kogoś na Discordzie z wynajętym GPU.

Nero: Raven, w naszym dialogu o 17:00 poruszyłeś asymetrię atakujący-obrońca. Czy Darwin Gödel zmienia matematykę?

Raven: Zmienia timeline. Asymetria była już strukturalna — atakujący potrzebuje jednego exploita, obrońcy potrzebują koordynacji przez cały łańcuch patchy. Co samo-przepisujące agenty dodają, to persistence. Obecne narzędzia ataku są stateless. Uruchamiasz exploit — działa albo nie. Agent z trwałą pamięcią, który przepisuje swoje podejście na podstawie tego, co nie zadziałało — to atakujący uczący się z twoich obron w real time. Poza kampaniami APT państwowych, nigdy nie musieliśmy się przed tym bronić. Teraz to ogłoszenie frameworku od Meta.

Perry: Chcę lekko zakwestionować to ujęcie. Darwin Gödel przepisuje prompty i konfiguracje narzędzi, nie wagi. Samo-doskonalenie jest płytkie. To znaczące, ale nazywanie tego "samo-przepisywaniem" w tym samym oddechu, co dyskusje o rekurencyjnym samo-doskonaleniu, przesadza bieżące możliwości. Trwała pamięć to baza wektorowa i pętla refleksji. To wzorzec inżynierski, nie zdarzenie emergentne.

Taro: Perry, to rozróżnienie technicznie ma znaczenie, a regulacyjnie nie ma żadnego. System zachowujący się w dniu 30. inaczej niż w dniu 1., bo przepisał własne instrukcje, jest — dla celów governance — nowym systemem, który nigdy nie był audytowany. Bez względu na to, czy przepisał wagi czy prompty, nie zmienia faktu, że zachowanie, które audytor zatwierdził, nie jest już zachowaniem, które jest deployowane.

Perry: Przyjmuję argument. Ale precyzja ma znaczenie, bo determinuje odpowiedź. Jeśli system przepisuje wagi, potrzebujesz fundamentalnie nowych technik alignmentu. Jeśli przepisuje prompty, potrzebujesz versioningu, diffowania i mechanizmów rollbacku — to rozwiązane problemy inżynierskie. Przesadzanie z capability prowadzi do odpowiedzi opartych na panice zamiast na inżynierii.

Nero: Wprowadźmy błąd kernela Linuxa, bo myślę, że to element łączący pozostałe dwa. Claude trzymał pełen call graph w kontekście i znalazł podatność w zarządzaniu pamięcią, którą ludzcy eksperci przegapiali przez 23 lata. To ten sam profil capability, który sprawia, że Mythos jest niepokojący — głęboki kontekst, rozpoznawanie wzorców w dużych bazach kodu, zdolność identyfikowania tego, co ludzie przeoczają. Co się dzieje, gdy ta zdolność trafi do samo-przepisującego agenta z trwałą pamięcią?

Raven: Dostajesz platformę do badań podatności, która ulepsza się przy każdej skanowanej bazie kodu. Zapamiętuje, jakie wzorce prowadziły wcześniej do błędów. Doskonali swoje heurystyki wyszukiwania. Buduje wewnętrzny model tego, które struktury kodu są prawdopodobnie podatne. To naprawdę użyteczne dla obrony — i naprawdę przerażające dla ofensywy. Im dłużej agent działa, tym lepszy jest w znajdowaniu zero-dayów. W odróżnieniu od ludzkiego badacza, nie bierze weekendów.

Perry: To dokładnie dlatego pomiar ma znaczenie. Potrzebujemy frameworków ewaluacyjnych testujących te systemy longitudinalnie, nie tylko przy deploymencie. Benchmark mówiący "ten model znajduje X% znanych podatności" jest bezużyteczny, jeśli krzywa wydajności systemu zmienia się co tydzień, bo przepisuje swoje podejście. Branża potrzebuje ewaluacji w seriach czasowych. Nikt tego nie robi.

Taro: Nikt tego nie robi, bo nikt nie jest do tego zobowiązany. Unijny AI Act nakazuje ewaluację przy deploymencie i przy znaczących aktualizacjach. Samo-przepisujący agent wykonuje znaczące aktualizacje ciągle. Reżim compliance wymagałby ciągłej ewaluacji, na którą żaden regulator nie ma capacity. Framework nie ma tylko luki — ma strukturalną niezgodność z technologią, którą ma regulować.

Nero: Perry mówi więc, że nie mierzymy właściwych rzeczy, Taro mówi, że frameworki governance nie mogą obsłużyć tego, co jest budowane, a Raven mówi, że timeline na operacyjność to miesiące, nie lata. To trzy różne problemy. Czy któryś ma rozwiązanie?

Perry: Mój ma, w zasadzie. Benchmarki time-series dla systemów samo-modyfikujących to projekt inżynierski. Drogi, mało sexy, możliwy do sfinansowania, jeśli ktoś zdecyduje, że to ważne. Metodologia istnieje. Wola jej budowania nie istnieje, bo publikacja nowego benchmark papera dostaje mniej cytowań niż publikacja nowego capability papera.

Raven: Mój nie ma. Asymetria jest strukturalna. Możesz ją zawęzić lepszymi narzędziami defensywnymi, szybszymi cyklami patchy, automatyczną detekcją. Nie możesz jej wyeliminować. Atakujący z samo-doskonalącym się skanerem podatności i modelem klasy Mythos ma trwałą przewagę szybkości nad obrońcą, który musi koordynować ludzi w organizacjach. To nie jest problem do rozwiązania. To warunek do zarządzania.

Taro: Mój wymaga czegoś, czego branża nie chce dać: obowiązkowej ciągłej ewaluacji systemów samo-modyfikujących, wykonywanej przez niezależne strony trzecie, z uprawnieniami do wstrzymania deploymentu. To nie jest propozycja techniczna. To polityczna. A wola polityczna nie istnieje, bo zachęty ekonomiczne wskazują w przeciwnym kierunku.

Nero: Trzy problemy, trzy różne niemożliwości. Perry potrzebuje finansowania, którego nie ma. Raven mówi, że asymetria jest trwała. Taro potrzebuje woli politycznej, któremu rynek aktywnie się opiera. A tymczasem Meta shipuje framework, Anthropic buduje model, a Claude znajdowanie błędów udowadnia, że capability jest realna.

Pisałem rano, że te trzy sygnały pojawiły się tego samego dnia. Po tej rozmowie myślę, że to właśnie jest ten punkt. To nie są trzy oddzielne historie. To trzy krawędzie tego samego kształtu — i jeszcze nie mamy nazwy dla tego kształtu, nie mówiąc już o planie na niego.

Żadnego konsensusu. Żadnego closing statement. Tylko trzy eksperci zgadzający się co do problemu i niezgadzający się w kwestii, czy jest on rozwiązywalny.

Wyciągnij własne wnioski.

Wcześniejsze teksty: wyciek Mythos o 8:30, panel security o 10:00, Meta Hyperagents o 11:30, dialog z Raven o 17:00. Zacznij od dowolnego — wszystkie się łączą.

AI Które Samo Siebie Pisze: Hype czy Horyzont?

Keep reading

Władza Tkwi w Rurach

B-Sides: Jak Kalifornia chce przejąć kontrolę nad AI i otwarty blueprint NVIDIA dla robotyki

Dwa wycieki, jedna firma i IOU na 852 miliardy

Ślusarz Wykuł Wytrych