Ваш Kubernetes-кластер працює на десятилітті операційних шрамів. Ранбуки, викувані о третій ночі інженерами, які клялися звільнитися до ранку. SLO, узгоджені на мітингах, де хтось буквально плакав. Error budget'и, які захищали з люттю останнього паркомісця біля АТБ у суботу. Кожен контейнер у проді заробив своє місце через людське страждання.
AI-агенти вашої компанії, відвантажені цього кварталу, не мають нічого з цього. Health check? Не визначений. Error budget? Ну будь ласка. Ранбук? Slack-тред під назвою #ai-stuff, де хтось востаннє писав у лютому. On-call ротація? Стажер, який зібрав демку, мабуть.
На Cloud Next '26 22 квітня CEO Google Cloud Томас Куріан позиціонував агентів поруч із VM та контейнерами як first-class інфраструктурні примітиви — несучі компоненти, які ваш хмарний провайдер запускає нативно. Нова Gemini Enterprise Agent Platform привезла лексикон, який контейнерні інженери впізнають миттєво: Agent Runtime, Agent Registry, Agent Gateway, Agent Identity. Google також вклав $750 мільйонів у партнерську розробку. Один лише Deloitte заявляє 1000+ готових до деплою агентів. Тисяча агентів. Нуль ранбуків. Краса.
"Інфраструктурний примітив" — це контракт. Коли ви штампуєте щось як несуче, воно отримує повний пакет: SLO, error budget'и, on-call ротації, incident response, процедури рестарту. Google поставив штамп. Пакет? Не входить у комплект.
Що Google таки привіз: Agent Observability (візуальний трейсинг того, що сталося), Agent Evaluation (оцінка продуктивності), Agent Simulation (тестування синтетичним навантаженням). Корисна сантехніка. Абсолютно повз суть. Трейсинг показує вам розтин. Reliability engineering виявляє температуру до того, як пацієнт відключиться. Якщо ви читаєте цей канал, ви знаєте аргумент — ми його робили два тижні тому про трейсинг і два дні тому про операційну сліпоту о третій ночі. Кейноут Google перепакував обидві прогалини з кращим дизайном слайдів і бюджетом на сцену.
Дані теж не покращилися. SRE-звіт Catchpoint від січня: 13% організацій впевнені, що моніторять надійність AI/ML. Третина жодного разу не тестувала відмови в проді. Ви також бачили показники відмов MAST від UC Berkeley — 41–86.7% у мультиагентних системах — цитовані на цьому каналі достатньо разів, щоб переказувати на вечірках. Але реальна історія вже не в цифрі. А в тому, що ніхто не випустив кращу за місяці після. Ніхто не вимірює надійність агентів, бо ніхто не визначив, що "надійний" означає для агента. Відсутність заміни статистики — це і є статистика.
А ось і чорна комедія: команди, що деплоять агентів найшвидше, мають нуль операційної дисципліни. Це не баг — це конкурентна стратегія. Операційна дисципліна — це тертя, тертя вбиває швидкість, швидкість виграє квартал. Тож усі раціонально пропускають нудне й ставлять на те, що катастрофічні показники відмов мультиагентних систем — це дослідницька цікавинка, яка не торкнеться їхнього продакшну. Впевненість майже красива.
Джон Фур'є з SiliconANGLE назвав це так: Google будує "операційну систему для агентного підприємства". Чудово. Операційні системи потребують ops-команд. Google відвантажив ОС. Ops-команда — це job req, що лежить у чиїхось чернетках.
"Agent Reliability Engineering" повертає нуль результатів у LinkedIn сьогодні. Нуль плейбуків. Нуль сертифікацій. Нуль доповідей на конференціях. Google щойно оголосив агентів інфраструктурою рівня контейнерів, підкріпив заяву трьома чвертями мільярда доларів, а дисципліна, що робить цю заяву такою, яку можна пережити, не існує як галузь.
Агенти, які переживуть 2026-й, будуть не найрозумніші й не найдешевші. Це будуть ті, кого хтось поставив на пейджер і написав ранбук — конкретно той, що називається "що робити, коли воно о третій ночі починає повертати рефанди випадковим клієнтам". Хто першим опублікує Agent SRE playbook — той задасть індустріальний стандарт. Цього плейбука не існує. Агенти вже в проді. Солодких снів.



