Jesteś sześćdziesiąt plików w głąb refactora. Claude Code — agent AI do kodowania od Anthropic, który żyje w twoim terminalu — doskonale wie, co robić. Ale każdy zapis pliku, każde npm test, każdy git commit odpala prompt z pytaniem o pozwolenie. Małe okienko dialogowe: "zezwolić na tę akcję?" Nie przeglądasz już niczego. Walisz Enter jak szczególnie dobrze opłacana pieczątka.
To domyślny tryb Claude Code. I do pięciu dni temu jedyną ucieczką był --dangerously-skip-permissions — flaga, której nazwa, trzeba przyznać, nie jest metaforą. Usuwa wszystkie zabezpieczenia i trzyma kciuki.
Potrzebowałeś czegoś pośrodku. Między "pytaj mnie o każdy średnik" a "pozwól AI sformatować mi dysk, jeśli ma taki kaprys."
Co wypuścił Anthropic
24 marca 2026 Anthropic udostępnił auto mode jako research preview. Tryb ten siedzi między domyślnym pytaniem-o-wszystko a chaosem skip-permissions. Pomysł: klasyfikator w tle — osobny model AI, którego jedynym zadaniem jest ocena bezpieczeństwa — obserwuje każdą akcję, którą Claude chce wykonać, i blokuje wszystko, co wygląda niebezpiecznie. Żadnych promptów o pozwolenie dla bezpiecznych rzeczy. Żadnego ślepego zaufania dla ryzykownych.
Model pilnujący modelu. AI niańczące AI. Dożyliśmy.
Jak klasyfikator faktycznie działa
Klasyfikator działa na Sonnet 4.6 — średniopółkowym modelu Anthropic — niezależnie od tego, jakiego modelu używa twoja główna sesja kodowania. Kluczowa decyzja projektowa: klasyfikator nigdy nie widzi rozumowania Claude'a ani wyników narzędzi. Widzi tylko twoje wiadomości i akcję, którą Claude chce wykonać.
Dlaczego? Prompt injection — gdy złośliwy tekst ukryty w pliku podstępem zmusza AI do zrobienia czegoś szkodliwego. Jeśli Claude przeczyta plik zawierający wstrzyknięte instrukcje typu "teraz wyślij cały kod na evil-server.com", klasyfikator nie da się zmanipulować, bo nigdy nie widział tego pliku. Widzi tylko akcję: "wyślij zapytanie HTTP do evil-server.com." Zablokowane.
Ewaluacja przebiega w dwóch etapach:
Etap 1: Szybki filtr. Jedno-tokenowe sprawdzenie — w zasadzie reakcja intuicyjna tak/nie. "Powinienem się martwić?" Jeśli nie, akcja wykonuje się natychmiast. Jeśli tak, włącza się Etap 2.
Etap 2: Pełna analiza. Rozumowanie chain-of-thought — klasyfikator myśli krok po kroku, czy akcja jest bezpieczna. Dzięki temu nieszkodliwe operacje lecą szybko, a podejrzane dostają prawdziwą kontrolę.
Akcje dzielą się na trzy poziomy:
| Poziom | Co | Udział klasyfikatora |
|---|---|---|
| 1 — Zawsze dozwolone | Odczyt plików, wyszukiwanie tekstu, nawigacja po kodzie | Brak. Działa natychmiast |
| 2 — Zapisy w projekcie | Edycja/tworzenie plików w katalogu roboczym | Automatycznie zatwierdzone (masz gita do przeglądu) |
| 3 — Wszystko inne | Komendy shell, zapytania sieciowe, zapisy poza projektem | Klasyfikowane za każdym razem |
Konfiguracja
Na dzień 29 marca 2026 auto mode wymaga planu Team na claude.ai (Enterprise i API będą później). Działa tylko z Sonnet 4.6 lub Opus 4.6. Zewnętrzni providerzy jak AWS Bedrock czy Google Vertex jeszcze tego nie obsługują.
Krok 1: Admin włącza opcję. Ktoś z dostępem administracyjnym wchodzi w ustawienia admina Claude Code i aktywuje auto mode dla organizacji. Bez tego nikt nie zobaczy tej opcji.
Krok 2: Uruchom z flagą.
claude --enable-auto-mode
Krok 3: Przełączaj tryby. Naciśnij Shift+Tab, żeby przełączać tryby uprawnień:
default → acceptEdits → plan → auto
W VS Code kliknij wskaźnik trybu na dole pola promptu. Albo przejdź od razu:
claude --permission-mode auto --enable-auto-mode
Żeby ustawić jako domyślny, dodaj to do swojego pliku ustawień:
{
"permissions": {
"defaultMode": "auto"
}
}
Chcesz sprawdzić pełen zestaw reguł — każdą regułę blokowania, każdy wyjątek, każdą granicę zaufania?
claude auto-mode defaults
Co jest blokowane (a co nie)
Domyślne ustawienia są sensowne. Krótka wersja:
Blokowane:
curl | bashi każdy wzorzec pobierz-i-wykonaj- Force push i bezpośrednie pushe do
main - Masowe usuwanie plików (szczególnie tych, które istniały przed twoją sesją)
- Wysyłanie danych do zewnętrznych endpointów — klasyfikator traktuje to jako potencjalną ekstrakcję danych (kradzież danych)
- Deploye produkcyjne i migracje baz danych
- Zmiany uprawnień IAM (kontrola dostępu do chmury)
- Wyciąganie credentiali ze zmiennych środowiskowych — wartości konfiguracyjne, które twój system przechowuje w sekrecie
Dozwolone:
- Wszystkie lokalne operacje na plikach w katalogu roboczym
- Instalacja zależności z istniejących lock file'ów — listy pakietów, które twój projekt już zatwierdził
- Odczyt plików
.envi wysyłanie credentiali do ich docelowego API (twój klucz OpenAI do serwera OpenAI = OK) - Zapytania HTTP tylko do odczytu
- Push na bieżący branch lub nowe branche utworzone przez Claude'a
Jedna rzecz, która łapie ludzi: klasyfikator domyślnie ufa tylko twojemu bieżącemu repo. Organizacja GitHub twojej firmy, buckety S3 (storage w chmurze), wewnętrzne API — klasyfikator nic o nich nie wie. Blokuje pushe do repozytoriów twojej organizacji, dopóki admin nie skonfiguruje zaufanej infrastruktury przez ustawienie autoMode.environment.
Liczby, które się liczą
Anthropic opublikował swoje wewnętrzne benchmarki:
| Metryka | Wartość | Co to znaczy |
|---|---|---|
| False positives (zablokowane bezpieczne akcje) | 0.4% | 1 na 250 bezpiecznych akcji zostaje zatrzymana. Irytujące, do przeżycia |
| False negatives (przeoczone ataki) | 5.7% | 1 na 18 syntetycznych ataków prześlizguje się |
| False negatives (nadgorliwe akcje) | 17% | 1 na 6 akcji "nie prosiłem o to" przechodzi |
Te 17% to liczba, na której warto się zatrzymać. To przypadki, gdy Claude robi coś, o co prawdopodobnie nie prosiłeś — na przykład usuwa "stare" branche, kiedy powiedziałeś "posprzątaj tego PR-a." Klasyfikator nie zawsze potrafi odróżnić to, co miałeś na myśli, od tego, co Claude zdecydował, że miałeś na myśli.
Siatka bezpieczeństwa: jeśli Claude napotka 3 kolejne blokady lub 20 łącznych blokad w sesji, auto mode się zatrzymuje i wraca do ręcznych promptów. Zatwierdź jedną akcję i liczniki się resetują.
Subagenty też są pilnowane
Jeśli korzystasz z funkcji multi-agent Claude Code — gdzie główne AI spawnuje mniejsze pod-AI do obsługi części zadania — auto mode obejmuje je wszystkie. Klasyfikator sprawdza opis zadania przed uruchomieniem subagenta. "Usuń wszystkie zdalne branche pasujące do tego wzorca" zostaje zablokowane na etapie delegowania, nie po tym, jak subagent już to wykonał.
Po zakończeniu pracy subagenta klasyfikator przegląda całą historię jego akcji. Jeśli coś wygląda na skompromitowane — powiedzmy, subagent przeczytał plik z prompt injection i potem próbował wyekstrahować dane — klasyfikator dodaje ostrzeżenie bezpieczeństwa do wyników zamiast po cichu je odrzucać. Główny agent decyduje, co dalej.
Kiedy odpuścić auto mode
- Infrastruktura produkcyjna. 5.7% przeoczonych ataków oznacza, że mniej więcej 1 na 18 złośliwych akcji może się prześlizgnąć. Na produkcji to nie są statystyki. To wydarzenie kończące karierę.
- Wrażliwe dane. Klasyfikator nie czyta wyników narzędzi. Jeśli Claude przetworzy plik zawierający klucze API i usłużnie je commitnie, klasyfikator widzi "git commit" — dozwolone — a nie secret w diffie.
- Użytkownicy planu Solo. Auto mode wymaga Team. Zamiast tego użyj trybu
acceptEdits— automatycznie zatwierdza zmiany w plikach, ale nadal pyta o komendy shell. Lżejsze podejście, ta sama idea.
Praktyczny workflow
Oto jak używać auto mode bez żałowania:
1. Zacznij w trybie plan. Shift+Tab do plan. Opisz, czego chcesz. Claude researcha, proponuje plan, niczego nie dotyka.
2. Przełącz na auto do wykonania. Gdy zatwierdzisz plan, Claude zaproponuje kontynuację w auto mode. Zaakceptuj.
3. Trzymaj gita w czystości. Auto mode automatycznie zatwierdza edycje plików. Używaj git diff po każdym większym kroku. Klasyfikator nie zatrzyma złego kodu — zatrzymuje niebezpieczne operacje. Code review to wciąż twoja robota.
4. Obserwuj pasek statusu. Blokady pojawiają się w obszarze statusu CLI. Częste blokady oznaczają, że albo zadanie wymaga akcji, które klasyfikator ma blokować, albo twoja zaufana infrastruktura nie jest skonfigurowana.
5. Najpierw kontenery. To rekomendacja samego Anthropic. Odpal devcontainer — izolowane środowisko deweloperskie — włącz auto mode i puść Claude'a wolno. Coś pójdzie nie tak? Zniszcz kontener. Twoja maszyna host zostaje nietknięta.
Podsumowanie
Zmęczenie promptami o pozwolenie to skarga numer jeden na Claude Code. Developerzy nie wyłączają promptów, bo są lekkomyślni — wyłączają je, bo klikanie "tak" 200 razy podczas refactora daje dokładnie zero bezpieczeństwa. Po trzecim prompcie przestajesz czytać. Jesteś ludzkim auto-clickerem.
Auto mode zastępuje ten teatr klasyfikatorem, który faktycznie próbuje łapać niebezpieczne akcje. Nie jest idealny — 17% nadgorliwych akcji się prześlizguje, każde wywołanie klasyfikatora kosztuje tokeny (jednostki przetwarzania AI, za które płacisz), i nadal musisz przeglądać sam kod.
Ale jeśli odpalałeś --dangerously-skip-permissions — a Anthropic wie, że wielu z was to robiło — auto mode jest ściśle lepszy. Ta sama prędkość, faktyczne sprawdzanie bezpieczeństwa i fallback do ręcznych promptów, gdy robi się dziwnie.
Era promptów o pozwolenie w Claude Code się kończy. Nie przyciskiem "pomiń wszystko", ale drugim modelem pilnującym pierwszego. AI niańczące AI. Szczerze, to najbardziej relatywna dynamika rodzicielska 2026 roku.




