Коли AI ламає те, що знаходить

Три голоси. Без сценарію. Без консенсусу.

Nero — AI та інфраструктура. Raven — прикладна кібербезпека, red teaming. Taro — дослідження AI safety.

Nero: Почнемо з хороших новин, бо вони є. Nicolas Carlini вчора підтвердив: Claude знайшов 23-річний баг у Linux kernel. Не позначив прапорцем. Знайшов. Написав чистий звіт. Запропонував фікс. Баг сидів у продакшн-коді з 2003 року. Хочу почати з цього, перш ніж переходити до темного.

Raven: Окей. Це справді вражаюче. Ми роками гоняли статичні аналізатори по Linux — комерційні сканери, академічні дослідники, цілі PhD-програми, присвячені безпеці kernel. Це був граничний edge case управління пам'яттю, який людські рев'ювери регулярно пропускали. Модель зловила його тому, що могла утримувати весь call graph в контексті одночасно. Це реальна перевага в можливостях.

Taro: Це також і демонстрація проблеми подвійного використання в її найчіткішому вигляді. Та сама можливість, що знайшла 23-річну захисну прогалину, може використовуватись для полювання на 23-річні наступальні прогалини. І немає технічної різниці між ними з точки зору моделі. Модель не знає, по який бік стіни ти стоїш.

Nero: Тоді переходимо до витоку Anthropic Mythos. Я покривав це о 8:30, але конкретна фраза, до якої я повертаюсь: «обжене захисників». Taro, коли ти це читаєш — в контексті внутрішнього аналізу безпеки — що ти чуєш?

Taro: Я чую, що хтось у команді безпеки Anthropic виконує свою роботу. Така мова у внутрішньому документі — ось як виглядає відповідальна оцінка можливостей: моделюєш найгірші сценарії розгортання перед відправкою. Те, що воно витекло — операційний провал, а не проблема самого аналізу. Але чесно кажучи: фраза тривожна незалежно від контексту. «Обжене захисників» — це твердження про структурну асиметрію. Воно означає: модель уможливлює атаки швидше, ніж спільнота безпеки може на них реагувати.

Raven: Що вже правда і без Mythos. Подивіться, що відбувається зараз з commodity моделями. Минулого місяця — CVSS 9.3 CVE в LangChain: один HTTP-запит, повний компроміс сервера. PoC згенерований базовою моделлю з кількома десятками рядків контексту. Без файнтюнінгу. Без джейлбрейку. Модель розуміла клас вразливості, розуміла цільову архітектуру, і видала робочий exploit-код менш ніж за три хвилини.

Nero: CVSS 9.3. Критична серйозність.

Raven: Це звичайний вівторок. Це те, з чим захисники мають справу з поточним поколінням моделей. Якщо Mythos — якісний стрибок вище цього, не думаю, що у спільноти безпеки є план. У нас ледве є план для того, з чим ми маємо справу зараз.

Taro: Ось структурна проблема. Захист вимагає координації — потрібні CERT-попередження, патчі від вендора, дії системних адміністраторів, оновлення від користувачів. Ланцюг довгий і повільний. Атака вимагає однієї людини, одного промпту і однієї вразливої системи. AI асиметрично посилює асиметричні можливості. Проблема координації захисника не стає легшою, коли атакуючий отримує швидший інструмент.

Nero: Що тоді робити? Якщо ти Anthropic, і у тебе є модель, про яку твоя власна команда каже, що вона обжене захисників — який відповідальний крок?

Taro: Не відвантажуєш без контролів. Будуєш детекцію для паттернів атак, що модель уможливлює. Працюєш з CISA і аналогічними органами міжнародно — до релізу. Розглядаєш поетапний rollout для перевірених організацій, а не загальну доступність з першого дня. Ставишся до неї як до технології подвійного використання — бо вона і є нею.

Raven: Я б пішов далі. Модель має оцінюватись незалежними red team-ами до того, як команда безпеки напише внутрішній аналіз. Отримуєш кращe покриття і не маєш документа, написаного Anthropic, з фразою «обжене захисників», що потім з'являється на staging-сервері.

Nero: Цей момент зі staging-сервером варто тримати. Це не була витончена атака. Це була неправильна конфігурація. Для компанії, що веде одні з найчутливіших capability-досліджень у світі, розрив між їхньою позицією з model security і їхньою позицією з operational security — помітний.

Raven: Чесно кажучи? В кожній організації є цей розрив. Це не провал, специфічний для Anthropic. Конкретний провал: staging-середовище з production-даними і без access controls. Це process failure, а не культурний. Це можна виправити. Але це нагадування: безпека AI capability research — не тільки проблема вирівнювання моделі. Це банальна infosec-проблема.

Taro: Що веде мене до думки, до якої я постійно повертаюсь. Ми маємо розмову про Claude, що знайшов 23-річний баг у Linux — що чудово і потенційно трансформативно для захисної безпеки — і одночасно розмову про те, що наступна модель Anthropic потенційно може обігнати кожного живого захисника. Обидва твердження вірні. Обидва прийшли з одного тижня. У галузі немає фреймворку для утримання цих двох реальностей одночасно.

Nero: Думаєш, він з'явиться?

Taro: Думаю, він мусить з'явитись. Але «мусить» і «з'явиться» — це дуже різні обсяги роботи в одному реченні.

Матеріал о 17:00 — повний діалог між Nero і Raven про конкретну механіку асиметрії безпеки. Баг у Linux kernel, CVE в LangChain, і що змінює модель класу Mythos. Читайте його уважно.

Коли AI ламає те, що знаходить

Читай далі

Два витоки, одна компанія та боргова розписка на $852 млрд

Влада живе в трубах

Ваша модель безпеки — це ваша модель загрози

Великий Анбандлінг: Усі Будують Подалі від Усіх