Pewnie wybrałeś API Claude częściowo dlatego, że Anthropic reklamuje się jako laboratorium stawiające bezpieczeństwo na pierwszym miejscu — odpowiedzialny dorosły w pokoju, który odszedł z OpenAI właśnie z powodu tych obaw. Na twojej korporacyjnej checkliście vendorów widnieje ładny zielony ptaszek obok "zobowiązania do bezpieczeństwa". Ten ptaszek może być wart mniej, niż ci się wydaje.
Oto pytanie, którego nikt nie zadaje na twoim kwartalnym przeglądzie: jaki mechanizm strukturalny faktycznie powstrzymuje Anthropic przed powtórzeniem scenariusza OpenAI, kiedy pieniądze zaczną naprawdę ciążyć? Bo 14 kwietnia 2026 roku Bloomberg doniósł, że pieniądze właśnie zaczęły ciążyć poważnie — oferty inwestorów przekroczyły 800 miliardów dolarów. Trzy dni później, 17 kwietnia, CEO Dario Amodei usiadł do rozmowy z szefową personelu Białego Domu Susie Wiles i sekretarzem skarbu Scottem Bessentem. To dokładnie ten sam podręcznik lobbingowy, który stosuje każdy gigant technologiczny, gdy staje się zbyt duży, by łatwo go regulować.
Przyjrzyjmy się, co tak naprawdę trzyma tę obietnicę bezpieczeństwa w kupie.
Responsible Scaling Policy: regulamin, który sam piszesz i sam sobie oceniasz
Cała struktura bezpieczeństwa Anthropic opiera się na Responsible Scaling Policy (RSP) — samoautorskim regulaminie definiującym poziomy bezpieczeństwa AI, niczym system ocen, który firma sama pisze i sama sobie wystawia stopnie. Wersja 3.0, opublikowana 24 lutego, usunęła twarde blokady, które wcześniej zmuszały Anthropic do wstrzymania rozwoju, gdy model przekroczył określone progi zagrożenia. Co je zastąpiło? Wymóg "mocnego argumentu" — ocenianego przez siebie samych.
To zasługuje na bliższe przyjrzenie się, bo stanowi strukturalny rdzeń całej narracji o bezpieczeństwie. Stara wersja RSP definiowała poziomy ASL — eskalujące stopnie blokady. Przekraczasz linię zagrożenia, rozwój staje, dopóki nie udowodnisz bezpieczeństwa. Ten mechanizm wymuszający tworzył ograniczenie mechaniczne: niezależnie od presji ze strony biznesu, polityka wymagała zatrzymania. Wersja 3.0 zastąpiła ten mechanizm ramami "safety case" — w gruncie rzeczy kierownictwo pisze przekonujący dokument wyjaśniający, dlaczego kontynuowanie jest w porządku.
Jak napisał niezależny analityk Zvi Mowshowitz 3 kwietnia: "Jeśli wystarczy, że napiszesz sam sobie przekonujący argument bezpieczeństwa, cóż, zawsze możesz to zrobić, jeśli jest to dla ciebie wystarczająco ważne."
Różnica jest kolosalna. Twarda blokada to wyłącznik awaryjny — zadziała niezależnie od tego, kto trzyma rękę na przełączniku. Wymóg "mocnego argumentu" to notatka służbowa. Prezesi, zarządy, a zwłaszcza inwestorzy wpatrujący się w liczbę 800 miliardów, bez trudu unieważniają notatki służbowe. Raporty o ryzyku pojawiają się co 3–6 miesięcy, ale Anthropic wypuszcza modele co dwa. Matematyka się nie zgadza.
Trust, który nic nie może zrobić
Dalej mamy Long-Term Benefit Trust (LTBT) — organ zarządczy Anthropic, który ma pilnować uczciwości firmy, coś jak rada etycznych doradców z nazwiskiem na drzwiach. 14 kwietnia CEO Novartis Vas Narasimhan dołączył do zarządu, dając dyrektorom mianowanym przez Trust większość 4 z 7. Brzmi uspokajająco.
Tyle że Trust posiada akcje doradcze, które mogą jedynie wybierać członków zarządu. Nie może blokować wydań modeli, zwalniać kierownictwa ani nadpisywać decyzji operacyjnych. A według analiz z EA Forum, akcjonariusze — w tym Amazon i Google — mogą potencjalnie przegłosować Trust zwykłą superwięksością. Anthropic nie opublikował samej umowy Trust Agreement, więc nikt nie jest w stanie zweryfikować dokładnych uprawnień.
Każdy poprzednik złamał się przy niższej cenie
Teraz spójrz na wzorzec historyczny:
| Firma | Wycena przy dryfcie | Co umarło |
|---|---|---|
| Meta | ~300 mld $ (2023) | Zespół Responsible AI |
| ~400 mld $ (2018) | "Don't be evil" | |
| OpenAI | ~500 mld $ (2025) | Zarządzanie non-profit |
| Anthropic | 800 mld $ (2026) | Twarde blokady bezpieczeństwa (RSP v3) |
Anthropic przekroczył wszystkie. Mając słabsze zabezpieczenia strukturalne niż oryginalna rada non-profit OpenAI, zanim ta implodowała.
Kontrargument jest realny — i niewystarczający
Uczciwie trzeba przyznać, że Anthropic zrobił rzeczy, których nie zrobił żaden inny lab. Wstrzymał Mythos — model, który znalazł błędy w każdym głównym systemie operacyjnym. Odmówił żądaniom Pentagonu zezwolenia na użycie Claude w autonomicznych atakach z użyciem śmiercionośnej siły. Opublikował 13 kart systemowych — szczegółowych raportów bezpieczeństwa, które większość labów pomija.
To nie jest nic. Ale każda z tych decyzji była uznaniowa — wybór dokonany przez obecne kierownictwo, bo obecne kierownictwo tego chciało. Nie strukturalny obowiązek, który przetrwa zmianę kierownictwa, IPO (trwają rozmowy z Goldman Sachs o potencjalnym wejściu na giełdę w październiku 2026) czy bunt inwestorów przy 800 miliardach. Anthropic po cichu zamienił mechanizm, który wymuszałby pauzę, na taki, który wymaga jedynie autoperswazji.
Jak ujęła to Transparency Coalition w lutym: "Polityki firmowe się zmieniają. Czasem z dnia na dzień."
Tymczasem 19 kwietnia Axios doniósł, że NSA korzysta z Mythos pomimo czarnej listy Pentagonu — rząd jednocześnie nazywa Anthropic zbyt niebezpiecznym do współpracy i zbyt zdolnym, by go ignorować. Nawet federalni nie potrafią utrzymać spójnej polityki wobec tej firmy. Powodzenia z twoim arkuszem oceny ryzyka vendora.
Co to oznacza dla ciebie
Twoja ocena ryzyka vendora prawdopodobnie wymienia "bezpieczeństwo na pierwszym miejscu" jako zaletę. Powinna wymieniać "egzekwowanie bezpieczeństwa = dobrowolne, niewiążące, samooceniane" jako niewycenione ryzyko, tuż obok SLA dotyczących dostępności i rezydencji danych.
Najuczciwsza rzecz w odpowiedzi Trumpa, gdy zapytano go o wizytę Amodeiego w Białym Domu 18 kwietnia? "Kto?" To mniej więcej tyle, ile wagi strukturalnej mają zobowiązania bezpieczeństwa Anthropic poza własnymi murami firmy.
Najbezpieczniejszy vendor AI to nie ten z najlepszymi deklarowanymi intencjami. To ten, którego zobowiązania bezpieczeństwa może audytować i egzekwować strona trzecia. Na dzień 20 kwietnia 2026 roku taka firma jeszcze nie istnieje.



