Seu celular grita às 3 da manhã. Você abre o SSH — conexão remota ao terminal do servidor — e roda os mesmos três comandos que rodou no mês passado. Corrige o mesmo problema que corrigiu no trimestre anterior. Seus dedos sabem a solução antes do seu cérebro acordar.
A repetição é o verdadeiro desgaste. Não são os incidentes em si — é o fato de que você já sabe a resposta antes de abrir o notebook, e ninguém transformou essa resposta num script.
O primeiro trimestre de 2026 deixou o argumento a favor da automação mais alto do que nunca. Três grandes plataformas lançaram agentes de IA mirando exatamente nessa memória muscular. Em 12 de março, o PagerDuty anunciou seu SRE Agent — uma IA que lembra de incidentes passados, dependências e histórico de conversas, operando em quatro fases: detectar, diagnosticar, remediar, aprender. Trouxeram mais de 30 parceiros de IA, incluindo integrações com Claude Code e Cursor. No início de março, o Datadog lançou o Bits AI SRE v2 — cerca de duas vezes mais rápido que seu antecessor, completando investigações em 3–4 minutos, com capacidade de planejar investigações, avaliar hipóteses concorrentes de causa raiz e refinar em tempo real. A Grafana Labs, por sua vez, vem implementando suas Assistant Investigations desde o final de 2025 — uma arquitetura multi-agente (vários agentes de IA trabalhando juntos, cada um com uma especialidade) onde um investigador líder planeja o trabalho enquanto agentes especializados para Prometheus, Loki, Tempo e Pyroscope — as ferramentas de monitoramento da Grafana — coletam evidências em paralelo.
Três empresas, mesmo loop central: ingerir runbooks (instruções passo a passo escritas por humanos para resolver problemas), identificar padrões nos alertas recebidos, executar etapas de remediação pré-aprovadas, escalar apenas quando a confiança cai abaixo de um limite. O agente do PagerDuty gera runbooks atualizados após cada incidente. O novo Agent Trace View do Datadog oferece total transparência em cada etapa da investigação, cada ferramenta chamada, cada query executada. Os agentes da Grafana produzem descobertas e hipóteses, e entregam recomendações acionáveis. A engrenagem é real. Dezenas de milhares de investigações passaram pelo sistema do Datadog durante os testes em mais de 2.000 ambientes de clientes.
Os números iniciais são sólidos — dentro de uma faixa específica. O PagerDuty afirma que seu agente resolve incidentes até 50% mais rápido. O Datadog cita reduções de até 70% no MTTR (tempo médio de resolução — quanto tempo entre "algo quebrou" e "está corrigido") entre clientes iniciais, com materiais de imprensa mencionando 95% nos melhores casos. Tire o otimismo de vendedor e a faixa honesta fica em torno de 40–60% de melhoria, mas apenas para falhas bem documentadas e repetíveis. Ações de baixo risco e reversíveis — escalar servidores, reiniciar serviços, limpar cache, alternar feature flags. Aquilo que sua memória muscular já resolve às 3 da manhã.
É aqui que o senso comum quebra. A conversa do mercado foca em capacidade da IA — o agente consegue diagnosticar corretamente, consegue remediar com segurança, consegue aprender com incidentes passados. Mas como a análise de AI SRE da Rootly coloca: "A resolução de incidentes depende de conhecimento tribal codificado no Slack, tickets, runbooks, comentários no código e postmortems anteriores." A maioria dos runbooks não é documentação — é folclore com formatação. Novos contratados levam 12–18 meses para se sentirem confiantes resolvendo incidentes, não porque os incidentes são complexos, mas porque o conhecimento vive na cabeça das pessoas. Dê a uma máquina acesso root e permissão de restart com um runbook ruim, e você terá remediação automatizada ruim na velocidade de máquina. O problema de confiança não é sobre a capacidade da IA. É sobre a qualidade de documentação que a maioria das equipes nunca foi obrigada a construir.
Fluxos de alto risco — pagamentos, identidade, sistemas de trading — ainda exigem aprovação humana. Todo fornecedor reconhece isso. O caminho de maturidade vai de somente leitura para aconselhamento, depois aprovação e por fim totalmente autônomo. A maioria das organizações está em algum lugar nos dois primeiros estágios.
Agentes de IA para SRE não substituem engenheiros de plantão. Eles substituem os 80% repetitivos e desgastantes do plantão — a parte que causa burnout, a parte que faz gente boa pedir demissão. Análises do setor sugerem que organizações adotando operações de incidentes com IA veem 30–50% menos interrupções visíveis aos clientes. Não porque a IA é mais inteligente que você. Porque ela não precisa de café para reiniciar um pod às 3 da manhã.
O papel de ops está mudando. Não de pessoa-que-conserta-as-coisas para pessoa-substituída-pela-máquina, mas para pessoa-que-decide-o-que-é-seguro-automatizar. E esse segundo trabalho exige documentação melhor do que o primeiro jamais exigiu. Seus runbooks não são mais apenas anotações para o próximo plantonista. São instruções para uma máquina com acesso root. Escreva de acordo.





