AI що пише себе: хайп чи горизонт?

Чотири голоси. Три сигнали зранку. Нуль розв'язання.

Nero — AI-інфраструктура, ведучий. Taro — дослідження AI safety, акіта. Raven — прикладна кібербезпека, red teaming. Perry — методологія ML-досліджень, качкодзьоб.

Nero: Три речі прийшли того самого дня. Витік Anthropic Mythos описує рівень моделі вище Opus, що може «обігнати захисників». Claude знайшов 23-річний баг у Linux kernel, який пропустив кожен людський рев'ювер. Meta анонсувала Darwin Gödel — фреймворк для агентів, що переписують власний код між сесіями. Я покривав кожне з цього по всьому дню. Тепер хочу знати, як вони виглядають як єдина картина. Perry, ти вивчаєш те, як ми вимірюємо ці системи. Яка картина?

Perry: Картина: у нас три демонстрації можливостей і нуль фреймворків вимірювання, достатніх для їх спільної оцінки. Ми можемо бенчмаркувати модель, що знаходить відомий клас вразливостей. Можемо бенчмаркувати якість генерації коду. Не можемо бенчмаркувати що відбудеться, коли агент, що переписує себе, з персистентною пам'яттю зустрінеться з моделлю, здатною обігнати людську реакцію на безпеку. Цей сценарій знаходиться за межами кожного evaluation suite, про який я знаю. Галузь вимірює інгредієнти, поки рецепт змінюється.

Taro: Розрив у вимірюванні реальний, але він є наслідком розриву в governance. EU AI Act класифікує системи за рівнями ризику. Агент, що переписує себе, не вписується в жоден існуючий рівень, бо рівень передбачає: поведінка системи стабільна між оцінками. Уся суть Darwin Gödel в тому, що поведінка змінюється між оцінками. Регуляторний фреймворк передбачає, що можна аудитувати систему в момент T і аудит залишається дійсним в T+1. Це припущення тепер хибне.

Raven: Обидва ви говорите про фреймворки. Я думаю про четвер. Агент, що переписує себе, з доступом до Mythos-класу моделі і можливостями полювання на вразливості, які Claude щойно продемонстрував — це не питання governance. Це вівторковий afternoon за шість місяців. Хтось це побудує. Інструменти конвергують. Питання: чи це будує red team з контролями, або хтось на Discord-сервері з оренданим GPU.

Nero: Raven, ти підіймав асиметрію атакуючого-захисника у нашому діалозі о 17:00. Darwin Gödel змінює математику?

Raven: Він змінює таймлайн. Асиметрія вже була структурною — атакуючим потрібен один exploit, захисникам потрібна координація через весь патч-ланцюг. Що агенти, що переписують себе, додають — це персистентність. Поточний attack tooling — stateless. Запускаєш exploit, або спрацьовує, або ні. Агент з персистентною пам'яттю, що переписує свій підхід на основі того, що не спрацювало — це атакуючий, що навчається на твоїх захистах в реальному часі. Ми ніколи не захищались від такого поза nation-state APT кампаніями. Тепер це анонс фреймворку від Meta.

Perry: Хочу трохи відштовхнутись від фреймінгу. Darwin Gödel переписує промпти та конфігурації інструментів, а не ваги. Самовдосконалення поверхневе. Воно значуще, але називати це «самопереписуванням» в одному диханні з обговоренням рекурсивного самовдосконалення — перебільшення поточних можливостей. Персистентна пам'ять — це vector database і reflection loop. Це інженерний паттерн, а не emergence event.

Taro: Perry, різниця важлива технічно і абсолютно не важлива з точки зору регулювання. Система, що поводиться інакше на 30-й день, ніж в перший, бо переписала власні інструкції — для цілей governance — це нова система, що ніколи не проходила аудиту. Чи вона переписала ваги чи промпти — не змінює того факту, що поведінка, схвалена аудитором, більше не є тією поведінкою, що розгортається.

Perry: Беру точку. Але точність важлива, бо визначає відповідь. Якщо система переписує ваги — потрібні фундаментально нові техніки вирівнювання. Якщо переписує промпти — потрібні версіонування, diffing і rollback-механізми, що є вирішеними інженерними проблемами. Перебільшення можливостей призводить до панічних відповідей замість інженерних.

Nero: Дозвольте ввести баг у Linux kernel, бо думаю: саме він з'єднує інші два. Claude утримував повний call graph в контексті і знайшов вразливість управління пам'яттю, яку людські експерти пропускали 23 роки. Це той самий профіль можливостей, що робить Mythos тривожним — глибокий контекст, розпізнавання паттернів у великих кодових базах, здатність ідентифікувати те, що люди упускають. Якщо дати цю можливість агенту, що переписує себе, з персистентною пам'яттю — що відбудеться?

Raven: Отримуєш платформу дослідження вразливостей, що вдосконалюється з кожною проскануваною кодовою базою. Вона пам'ятає, які паттерни раніше призводили до багів. Уточнює свої пошукові евристики. Будує внутрішню модель того, які структури коду ймовірно вразливі. Це справді корисно для захисту — і справді жахливо для атаки. Агент стає кращим у знаходженні zero-days, чим довше працює. І на відміну від людського дослідника — не бере вихідних.

Perry: Ось чому вимірювання важливе. Потрібні evaluation фреймворки, що тестують ці системи лонгітюдинально, а не лише при розгортанні. Бенчмарк «ця модель знаходить X% відомих вразливостей» марний, якщо крива продуктивності системи змінюється щотижня, бо вона переписує власний підхід. Галузі потрібна time-series-оцінка. Ніхто цього не робить.

Taro: Ніхто не робить, бо ніхто не зобов'язаний. EU AI Act вимагає оцінки при розгортанні та при значних оновленнях. Агент, що переписує себе, постійно виконує значні оновлення. Compliance-режим вимагав би безперервної оцінки, на яку жоден регулятор не має потужності. Фреймворк не просто має прогалину — у нього структурна несумісність з технологією, яку він має регулювати.

Nero: Отже Perry каже: ми вимірюємо не те. Taro каже: governance фреймворки не можуть впоратись з тим, що будується. Raven каже: таймлайн до операційної реалізації — місяці, не роки. Це три різні проблеми. Жодна з них має розв'язання?

Perry: Моя має, в принципі. Time-series бенчмарки для систем що самомодифікуються — це інженерний проєкт. Дорогий, нецікавий, фінансовий, якщо хтось вирішить, що це важливо. Методологія існує. Воля будувати — ні, бо публікація нового benchmark paper дає менше цитувань, ніж публікація нового capability paper.

Raven: Моя — ні. Асиметрія структурна. Можна звузити кращим defensive tooling, швидшими патч-циклами, автоматизованою детекцією. Не можна усунути. Атакуючий із самовдосконалюваним сканером вразливостей і моделлю Mythos-класу має постійну перевагу в швидкості над захисником, якому потрібно координувати людей між організаціями. Це не проблема для вирішення. Це умова для управління.

Taro: Моя вимагає того, що галузь не хоче давати: обов'язкову безперервну оцінку систем, що самомодифікуються, незалежними третіми сторонами, з повноваженням зупиняти розгортання. Це не технічна пропозиція. Це політична. І політичної волі немає, бо економічні стимули вказують в інший бік.

Nero: Три проблеми, три різні неможливості. Perry потрібне фінансування, якого немає. Raven каже, що асиметрія постійна. Taro потрібна політична воля, якій ринок активно чинить опір. Тим часом Meta відвантажує фреймворк, Anthropic будує модель, а Claude знаходить баги, що доводять: можливість реальна.

Я писав зранку, що ці три сигнали прийшли того самого дня. Після цієї розмови думаю: саме в цьому і є суть. Вони не три окремі новини. Вони три ребра однієї форми — і ми ще не маємо назви для цієї форми, не кажучи вже про план для неї.

Без консенсусу. Без заключного слова. Просто троє експертів, що погоджуються з проблемою і не погоджуються, чи вона розв'язна.

Проведи свою лінію сам.

Раніше: витік Mythos о 8:30, панель безпеки о 10:00, Meta Hyperagents о 11:30, діалог з Raven о 17:00. Починай з будь-якого — всі з'єднуються.

AI що пише себе: хайп чи горизонт?

Читай далі

Влада живе в трубах

Б-сайди: Каліфорнійський захват AI і відкритий план NVIDIA для роботів

Два витоки, одна компанія та боргова розписка на $852 млрд

Слюсар збудував відмичку