ШІ-агенти вже вміють лагодити інциденти — якщо ваші ранбуки не фольклор

Телефон кричить о третій ночі. Ви підключаєтесь по SSH — віддалений термінал до сервера — і вводите ті самі три команди, що й минулого місяця. Лагодите ту саму проблему, що й минулого кварталу. Пальці знають фікс раніше, ніж мозок прокинеться.

Справжній drain — не інциденти самі по собі. А те, що ви вже знаєте відповідь до того, як відкриєте ноутбук, і ніхто досі не перетворив цю відповідь на скрипт.

Q1 2026 зробив аргумент на користь автоматизації гучнішим, ніж будь-коли. Три великі платформи випустили ШІ-агентів, націлених саме на цю м'язову пам'ять. 12 березня PagerDuty анонсував свого SRE Agent — ШІ, який пам'ятає минулі інциденти, залежності та історію комунікації, а потім працює в чотири фази: виявити, діагностувати, виправити, навчитися. З ним прийшли 30+ ШІ-партнерів, зокрема інтеграції з Claude Code та Cursor. Раніше в березні Datadog випустив Bits AI SRE v2 — приблизно вдвічі швидший за попередника, здатний завершити розслідування за 3–4 хвилини, планувати дослідження, оцінювати конкуруючі гіпотези щодо root cause та уточнювати їх у реальному часі. Тим часом Grafana Labs з кінця 2025 року розгортає Assistant Investigations — мультиагентну архітектуру (кілька ШІ-агентів, кожен зі своєю спеціалізацією), де головний слідчий планує роботу, а спеціалізовані агенти для Prometheus, Loki, Tempo та Pyroscope — інструментів моніторингу Grafana — збирають докази паралельно.

Три компанії, один і той самий core loop: поглинути ранбуки (покрокові інструкції з ремонту, написані людьми), зіставити патерни з вхідними алертами, виконати попередньо схвалені кроки ремедіації, ескалювати лише коли впевненість падає нижче порогу. Агент PagerDuty генерує оновлені ранбуки після кожного інциденту. Новий Agent Trace View від Datadog дає повну прозорість кожного кроку розслідування, кожного викликаного інструменту, кожного запиту. Агенти Grafana формують висновки та гіпотези, а потім передають вам конкретні рекомендації. Механізм реальний. Десятки тисяч розслідувань пройшли через систему Datadog під час тестування в 2000+ клієнтських середовищах.

Ранні цифри виглядають солідно — у певному діапазоні. PagerDuty заявляє, що агент розв'язує інциденти до 50% швидше. Datadog називає до 70% скорочення MTTR (mean time to resolution — час від 'щось зламалося' до 'полагоджено') серед ранніх клієнтів, у прес-матеріалах згадують 95% у найкращих випадках. Зніміть вендорський оптимізм — і чесний діапазон сідає десь на 40–60% покращення, але лише для добре задокументованих, повторюваних збоїв. Дії з низьким ризиком, які легко відкотити — масштабування серверів, рестарти, очищення кешу, перемикання feature flags. Те, що ваша м'язова пам'ять і так робить о третій ночі.

І ось тут ламається загальноприйнята мудрість. Індустрійна дискусія зосереджена на можливостях ШІ — чи може агент правильно діагностувати, чи може безпечно виправити, чи здатен вчитися з минулих інцидентів. Але як зазначає аналіз AI SRE від Rootly: 'Розв'язання інцидентів залежить від tribal knowledge, розкиданого по Slack, тікетах, ранбуках, коментарях у коді та минулих постмортемах'. Більшість ранбуків — це не документація. Це фольклор із форматуванням. Новачкам потрібно 12–18 місяців, щоб впевнено розв'язувати інциденти, і не тому, що інциденти складні, а тому, що знання живуть у головах людей. Дайте машині root-доступ і дозвіл на рестарт із поганим ранбуком — і отримаєте погану автоматизовану ремедіацію на машинній швидкості. Проблема довіри — не в можливостях ШІ. Вона в якості документації, яку більшість команд ніколи не були змушені створювати.

Високоризикові потоки — платежі, автентифікація, трейдингові системи — все ще потребують людського підтвердження. Це визнає кожен вендор. Шлях до зрілості йде від read-only до рекомендацій, потім до роботи з апрувом і лише потім до повної автономії. Більшість організацій сидять десь на перших двох етапах.

ШІ SRE-агенти не замінюють чергових інженерів. Вони замінюють ті рутинні, виснажливі 80% чергування — ту частину, від якої вигорають, від якої хороші люди звільняються. Галузеві дослідження свідчать, що організації, які впроваджують ШІ в інцидент-менеджмент, бачать на 30–50% менше аутейджів, помітних користувачам. Не тому, що ШІ розумніший за вас. А тому, що йому не потрібна кава, щоб перезапустити под о третій ночі.

Роль опсів змінюється. Не з 'людини, яка лагодить' на 'людину, яку замінила машина', а на 'людину, яка вирішує, що безпечно автоматизувати'. І ця друга робота вимагає кращої документації, ніж будь-коли вимагала перша. Ваші ранбуки — це більше не нотатки для наступного чергового. Це інструкції для машини з root-доступом. Пишіть їх відповідно.

ШІ-агенти вже вміють лагодити інциденти — якщо ваші ранбуки не фольклор

Читай далі

Ваш AI-агент не знає, що зараз третя ночі і прод горить

Claude Code Routines: Anthropic викотив свого першого AI-демона

Три агентні платформи запустились у квітні. Жодна не має кнопки деплою.

У твоїх агентських інструментів немає номерів версій. 97 мільйонам завантажень байдуже.