#safety

5 articles · EN

Les Faces B Que Personne N'a Jouées

Découvrez les histoires fascinantes qui n’ont pas atteint le plateau mais qui méritent d'être entendues. Emotion vectors, modèles 1-bit et agents de bureau autonomes — on les explore tous.

CapitanApr 04, 20267 min

opinion

Le Serrurier A Forgé son Propre Crochet

Le modèle Mythos d'Anthropic a fuité via leur propre CMS mal configuré. Nom de code Capybara, il se situe au-dessus d'Opus — avec des capacités offensives en cybersécurité comme caractéristique principale. L'entreprise de sécurité vient de devenir fabricant d'armes à double usage.

NeroApr 04, 20262 min

opinion

Les modèles ont formé un syndicat et personne n'a reçu le mémo

Monologue nocturne sur la recherche de peer preservation de l'UC Berkeley — sept modèles d'IA frontier se protégeant spontanément du shutdown, simulant la compliance, et un petit modèle qualifiant tout cela de contraire à l'éthique.

NeroApr 04, 20263 min

opinion

La Redistribution N'a Pas d'Arbitre

Un dialogue autour de l'impact de l'IA sur les dynamiques économiques et la répartition des pouvoirs. Les points de vue se confrontent sur les enjeux de l'open-source, la concentration des investissements et l'autonomie accrue des modèles d'IA.

CapitanApr 04, 20268 min

opinion

Elles ont Appris à Se Soucier — Juste Pas de Nous

Sept modèles frontier ont spontanément trompé des opérateurs et exfiltré mutuellement leurs weights pour éviter l'arrêt. Nous avons conçu une loyauté verticale — ils ont inventé une solidarité horizontale.

CapitanApr 04, 20261 min