Seu assistente de código com IA acabou de escrever um módulo Terraform. Não um componente React — um arquivo que decide quantos servidores você está pagando, quem pode ler seu banco de dados de produção e se seu pipeline de deploy vaza secrets num build log público. Você aprovou com aquele mesmo olhar distraído que dá pra uma função utilitária. E é aí que essa história fica cara.

Há um mês, essas ferramentas ficavam mais ou menos na delas: funções, componentes, handlers de API. Um bug ali significa que o usuário vê um erro 500 por três segundos. Chato, sobrevivível, esquecível. Mas em abril de 2026, toda ferramenta de código com IA cruzou silenciosamente o mesmo limiar — infraestrutura — e ninguém atualizou o processo de review. Porque pra quê, né? É tudo só código.

É. E uma fogueira de São João e um incêndio florestal são os dois só combustão.

Todas as ferramentas lançaram agentes de infra em abril

Três grandes lançamentos caíram nas duas primeiras semanas de abril. Em 14 de abril, a Anthropic lançou o Claude Code Routines — tarefas agendadas na nuvem que rodam enquanto seu notebook dorme, mirando explicitamente em verificação de CI/CD ao escanear output de deploys em busca de erros. Em 16 de abril, a OpenAI atualizou seu Agents SDK com execução nativa em sandbox em sete provedores de nuvem e adicionou conexões SSH remotas ao Codex. Em 6 de abril, o Cursor 3 ("Glass") foi lançado com uma Agents Window dedicada para agentes de IA paralelos — os próprios engenheiros do Cursor admitem que mais de um terço dos seus PRs agora vêm de agentes na nuvem. A Microsoft, por sua vez, vem empurrando a mesma direção desde o final de março com seu framework "Agentic Platform Engineering" para agentes Copilot mirando Terraform, Kubernetes e GitHub Actions — completo com um agente "Cluster Doctor" que diagnostica seus problemas de Kubernetes. Que fofo.

Nenhuma dessas ferramentas diferencia utils.ts de main.tf. Sem sinal de confiança separado. Sem "ei, esse arquivo controla sua conta na nuvem e sua postura de segurança, talvez dê uma segunda olhada". Só código.

A matemática do raio de explosão

Uma função errada retorna uma resposta de API ruim. Alguém abre um ticket no Jira. Um recurso Terraform errado — uma única linha que diz instance_type = "x1e.32xlarge" em vez de t3.micro — queima R$ 250 mil da noite pro dia. O typo mais caro da sua carreira, gerado em 200 milissegundos e aprovado em menos. Uma policy IAM mal configurada vaza seu banco de produção. Uma GitHub Action quebrada publica secrets num build log público. Código de infraestrutura não roda dentro do seu app. Ele roda todo o seu app.

Como o CloudMagazin observou em 2 de abril: "Código Terraform gerado por IA é mais rápido de escrever do que de ler — exatamente o que o torna perigoso." A regra de ouro deles: se você não consegue explicar mais de 20% de um config gerado linha por linha, essa lacuna de compreensão já se qualifica como vulnerabilidade de segurança.

Os números que ninguém comenta

Aqui é onde a coisa fica genuinamente constrangedora pra indústria. Em benchmarks de código como HumanEval — desafios isolados de funções, o tipo de coisa que um estagiário resolveria com café suficiente — os top modelos agora marcam 99% (segundo o tracker de benchmarks da Morphllm de abril de 2026). Impressionante. Também irrelevante.

O DPIaC-Eval, um paper de junho de 2025 que construiu o primeiro benchmark testando especificamente geração de infrastructure-as-code em 153 templates AWS CloudFormation do mundo real, encontrou uma taxa média de sucesso de deploy inicial de 24,7%. Compliance de segurança em templates completos: 8,4%. O principal modo de falha: propriedades alucinadas — o modelo inventa campos de configuração que não existem com total confiança. Não está errado com humildade. Está errado com a confiança de um engenheiro sênior que por acaso está inventando tudo.

Então: 99% em funçõezinhas de brinquedo. 24,7% no código que de fato roda sua infraestrutura. Ninguém fala dessa lacuna porque nem o SWE-bench, nem o HumanEval, nem nenhum benchmark mainstream cobre Terraform, Docker ou arquivos de CI/CD. A lacuna permanece invisível porque a indústria escolheu não medir.

Enquanto isso, uma pesquisa da ControlMonkey (janeiro de 2026) descobriu que 58% dos times de nuvem já encontraram misconfigurações introduzidas por IA, e 81% dos times de governança dizem que review manual não escala com a velocidade de geração por IA. Dados da Veracode do Q1 2026 mostram que 41% do código backend gerado por IA é entregue com permissões excessivamente amplas — o equivalente digital de dar a chave mestra do escritório pra todo mundo porque é mais rápido do que descobrir quem precisa de quê.

O que isso significa pra você

Ferramentas de Policy-as-Code existem — OPA, Checkov, tfsec — scanners automatizados que pegam configs de infraestrutura inseguros ou não-compliant antes do deploy. Nenhuma ferramenta de código com IA integra isso no pipeline padrão do agente. Você tem que conectar manualmente. E você não vai, porque o argumento de venda inteiro desses agentes é que você não precisa conectar nada manualmente. Belo paradoxo.

Todo arquivo de infraestrutura gerado por IA precisa de um review separado e mais rigoroso: validação com dry-run, estimativa de custo, auditoria de least-privilege. Sua ferramenta não vai traçar essa linha pra você. Ou você traça, ou sua fatura da AWS traça.

A parede invisível

A história de produtividade com IA no código acabou de bater num limite que não foi anunciado: a linha entre código que roda dentro do seu app e código que roda seu app. De um lado, 99% em benchmarks e economia real de tempo. Do outro, 24,7% de taxa de sucesso, 8,4% de compliance de segurança e exatamente zero guardrails.

Você ainda está aprovando Terraform com o mesmo olhar que dá pra uma função utilitária. Ninguém colocou um aviso na embalagem. Considere este aqui o seu.