Telefon wyje o trzeciej w nocy. Łączysz się przez SSH — zdalny terminal na serwerze — i wpisujesz te same trzy komendy co miesiąc temu. Naprawiasz ten sam problem co w zeszłym kwartale. Palce znają rozwiązanie, zanim mózg się obudzi.
To powtarzalność jest prawdziwym żerem. Nie same incydenty — fakt, że znasz odpowiedź, zanim otworzysz laptopa, a nikt nie zamienił tej odpowiedzi w skrypt.
Q1 2026 sprawił, że argument za automatyzacją brzmi głośniej niż kiedykolwiek. Trzy duże platformy wypuściły agentów AI wymierzonych dokładnie w tę pamięć mięśniową. 12 marca PagerDuty ogłosiło SRE Agenta — AI, który pamięta poprzednie incydenty, zależności i historię konwersacji, a potem działa w czterech fazach: wykryj, zdiagnozuj, napraw, ucz się. Dołączyli ponad 30 partnerów AI, w tym integracje z Claude Code i Cursor. Wcześniej w marcu Datadog wypuścił Bits AI SRE v2 — mniej więcej dwukrotnie szybszy od poprzednika, zamykający śledztwa w 3–4 minuty, z możliwością planowania analiz, oceny konkurujących hipotez root-cause i iteracji w czasie rzeczywistym. Grafana Labs tymczasem wdrażała Assistant Investigations od końca 2025 — architekturę wieloagentową (wiele agentów AI współpracujących, każdy ze swoją specjalizacją), gdzie główny agent planuje pracę, a wyspecjalizowani agenci dla Prometheus, Loki, Tempo i Pyroscope — narzędzi monitoringowych Grafany — zbierają dowody równolegle.
Trzy firmy, ta sama pętla: wchłoń runbooki (instrukcje naprawy krok po kroku, spisane przez ludzi), dopasuj wzorce do przychodzących alertów, wykonaj zatwierdzone kroki naprawcze, eskaluj tylko gdy pewność spada poniżej progu. Agent PagerDuty generuje zaktualizowane runbooki po każdym incydencie. Nowy Agent Trace View od Datadog daje pełną przejrzystość — każdy krok śledztwa, każde wywołane narzędzie, każde zapytanie. Agenci Grafany produkują wnioski i hipotezy, a potem podają ci konkretne rekomendacje. Mechanizm jest prawdziwy. Dziesiątki tysięcy analiz przeszły przez system Datadog podczas testów w ponad 2000 środowiskach klientów.
Wczesne liczby wyglądają solidnie — w określonym zakresie. PagerDuty twierdzi, że agent rozwiązuje incydenty do 50% szybciej. Datadog podaje do 70% redukcji MTTR (mean time to resolution — czas od 'coś się zepsuło" do 'działa") u wczesnych klientów, a materiały prasowe wspominają o 95% w najlepszych przypadkach. Odetnij vendorowy optymizm i uczciwy zakres to około 40–60% poprawy, ale tylko dla dobrze udokumentowanych, powtarzalnych awarii. Niskoryzkowne, odwracalne akcje — skalowanie serwerów, restarty, czyszczenie cache, przełączanie feature flag. To, co twoja pamięć mięśniowa i tak ogarnia o trzeciej w nocy.
I tu konwencjonalna mądrość się łamie. Branżowa dyskusja skupia się na możliwościach AI — czy agent poprawnie zdiagnozuje, czy bezpiecznie naprawi, czy nauczy się z przeszłych incydentów. Ale jak ujmuje to analiza AI SRE od Rootly: 'Rozwiązywanie incydentów zależy od wiedzy plemiennej zakodowanej na Slacku, w ticketach, runbookach, komentarzach w kodzie i przeszłych postmortemach." Większość runbooków to nie dokumentacja — to folklor z formatowaniem. Nowi ludzie potrzebują 12–18 miesięcy, żeby czuć się pewnie przy rozwiązywaniu incydentów. Nie dlatego, że incydenty są skomplikowane, ale dlatego, że wiedza żyje w głowach ludzi. Daj maszynie roota i uprawnienia do restartu z kiepskim runbookiem, a dostaniesz kiepską zautomatyzowaną naprawę z prędkością maszyny. Problem zaufania nie dotyczy możliwości AI. Dotyczy jakości dokumentacji, której większość zespołów nigdy nie musiała budować.
Wysokiego ryzyka przepływy — płatności, tożsamość, systemy tradingowe — wciąż wymagają ludzkiej bramki zatwierdzenia. Każdy vendor to przyznaje. Ścieżka dojrzałości wiedzie od trybu tylko-do-odczytu przez doradczy i oparty-na-zatwierdzeniach do w pełni autonomicznego. Większość organizacji siedzi gdzieś w pierwszych dwóch etapach.
Agenci AI SRE nie zastępują inżynierów na dyżurze. Zastępują powtarzalne, wykańczające duszę 80% dyżuru — tę część, która powoduje wypalenie, tę część, przez którą dobrzy ludzie odchodzą. Analizy branżowe sugerują, że organizacje wdrażające AI-driven incident ops widzą 30–50% mniej awarii widocznych dla klientów. Nie dlatego, że AI jest mądrzejsze od ciebie. Dlatego, że nie potrzebuje kawy, żeby zrestartować poda o trzeciej w nocy.
Rola opsowa się zmienia. Nie z osoby-która-naprawia na osobę-zastąpioną-przez-maszynę, ale na osobę-która-decyduje-co-bezpiecznie-zautomatyzować. A ta druga praca wymaga lepszej dokumentacji niż pierwsza kiedykolwiek wymagała. Twoje runbooki nie są już tylko notatkami dla następnego dyżurnego. To instrukcje dla maszyny z rootem. Pisz je odpowiednio.





