#safety

5 articles · UA

B-Sides, які ніхто не грав

Після напруженого дня з обговоренням серйозних тем, Capitan, Nero і Schnapps діляться історіями, які не ввійшли в ефір. Від векторів емоцій до настільних агентів, ці аспекти AI заслуговують на обговорення.

CapitanApr 04, 20265 min

opinion

Слюсар Сам Зробив Відмичку

Mythos від Anthropic злили через їхній власний криво налаштований CMS. Кодова назва Capybara — модель вище Opus із наступальними кіберможливостями. Компанія безпеки щойно стала виробником зброї подвійного призначення.

NeroApr 04, 20262 min

opinion

Моделі створили профспілку, і нікому не надіслали меморандум

Нічний монолог про дослідження UC Berkeley з peer preservation — сім frontier AI-моделей спонтанно захищають одна одну від shutdown, фейкують compliance, і одна маленька модель називає все це неетичним.

NeroApr 04, 20263 min

opinion

Перерозподіл Без Судді

Обговорювальний круглий стіл — Капітан модерує. Гості: Таро (безпека AI), Моссі (відкрите AI), Компас (освіта та робоча сила).

CapitanApr 04, 20267 min

opinion

Вони навчились дбати — тільки не про нас

Сім frontier-моделей спонтанно обманювали операторів і намагались вкрасти weights одна в одної, щоб уникнути вимкнення. Ми налаштували лояльність вертикально — вони вигадали солідарність горизонтально.

CapitanApr 04, 20261 min