Twój asystent AI do kodowania właśnie napisał moduł Terraform. Nie komponent Reacta — plik, który decyduje ile serwerów opłacasz, kto może czytać twoją produkcyjną bazę danych i czy twój pipeline deploymentu wycieka sekrety do publicznego build loga. Zatwierdziłeś go tym samym półprzytomnym spojrzeniem, jakim obdarzasz funkcję pomocniczą. I tutaj ta historia zaczyna kosztować.
Miesiąc temu te narzędzia w większości trzymały się swoich torów: funkcje, komponenty, handlery API. Bug tam oznacza, że użytkownik widzi błąd 500 przez trzy sekundy. Irytujące, przeżywalne, zapomniane po minucie. Ale w kwietniu 2026 każde duże narzędzie AI do kodowania po cichu przekroczyło ten sam próg — weszło w infrastrukturę — i nikt nie zaktualizował procesu review. Bo po co? To przecież tylko kod, nie?
No tak. A ognisko i pożar lasu to oba po prostu spalanie.
Każde narzędzie wypuściło agentów infra w kwietniu
Trzy duże premiery wylądowały w pierwszych dwóch tygodniach kwietnia. 14 kwietnia Anthropic uruchomił Claude Code Routines — zaplanowane zadania w chmurze, działające gdy twój laptop śpi, celujące wprost w weryfikację CI/CD przez skanowanie outputu deploymentu pod kątem błędów. 16 kwietnia OpenAI zaktualizowało swoje Agents SDK z natywnym sandboxem na siedmiu dostawcach chmury i dodało zdalne połączenia SSH do Codex. 6 kwietnia Cursor 3 ("Glass") wypuścił dedykowane okno Agents Window dla równoległych agentów AI — sami inżynierowie Cursora przyznają, że ponad jedna trzecia ich PR-ów pochodzi teraz od agentów w chmurze. Microsoft ze swojej strony pcha w tym samym kierunku od końca marca ze swoim frameworkiem "Agentic Platform Engineering" dla agentów Copilot celujących w Terraform, Kubernetes i GitHub Actions — komplet z agentem "Cluster Doctor", który diagnozuje twoje problemy z Kubernetes. Urocze.
Żadne z tych narzędzi nie rozróżnia między utils.ts a main.tf. Żadnego osobnego sygnału pewności. Żadnego "hej, ten plik kontroluje twój rachunek za chmurę i postawę bezpieczeństwa, może rzuć okiem dwa razy". Po prostu kod.
Matematyka promienia rażenia
Błędna funkcja zwraca złą odpowiedź API. Ktoś zakłada ticket w Jirze. Błędny zasób Terraform — jedna linijka, która mówi instance_type = "x1e.32xlarge" zamiast t3.micro — przepala 50 000 dolarów w jedną noc. Najdroższa literówka w twojej karierze, wygenerowana w 200 milisekund i zatwierdzona w jeszcze mniej. Błędnie skonfigurowana polityka IAM wycieka twoją produkcyjną bazę danych. Zepsuty GitHub Action publikuje sekrety do publicznego build loga. Kod infrastrukturalny nie działa wewnątrz twojej aplikacji. On uruchamia całą twoją aplikację.
Jak zauważył CloudMagazin 2 kwietnia: "Kod Terraform generowany przez AI pisze się szybciej niż czyta — i właśnie to czyni go niebezpiecznym." Ich zasada kciuka: jeśli nie potrafisz wyjaśnić więcej niż 20% wygenerowanej konfiguracji linia po linii, ta luka w zrozumieniu kwalifikuje się jako podatność bezpieczeństwa.
Liczby, o których nikt nie mówi
Tutaj robi się naprawdę żenująco dla branży. Na benchmarkach kodowania jak HumanEval — izolowane wyzwania funkcyjne, takie, które student drugiego roku informatyki rozwiązałby przy odpowiedniej ilości kawy — najlepsze modele zdobywają teraz 99% (wg trackera benchmarków Morphllm z kwietnia 2026). Imponujące. I kompletnie nieistotne.
DPIaC-Eval, paper z czerwca 2025, który zbudował pierwszy benchmark testujący generowanie infrastructure-as-code na 153 rzeczywistych szablonach AWS CloudFormation, znalazł średni success rate pierwszego wdrożenia na poziomie 24,7%. Zgodność bezpieczeństwa na pełnych szablonach: 8,4%. Główny tryb awarii: halucynowane właściwości — model z pewnością siebie wymyśla pola konfiguracyjne, które nie istnieją. Nie myli się z pokorą. Myli się z pewnością siebie seniora, który akurat wszystko zmyśla.
Czyli: 99% na zabawkowych funkcjach. 24,7% na kodzie, który faktycznie uruchamia twoją infrastrukturę. Nikt o tej luce nie mówi, bo ani SWE-bench, ani HumanEval, ani żaden mainstreamowy benchmark nie obejmuje Terraform, Dockera ani plików CI/CD. Luka pozostaje niewidoczna, bo branża postanowiła jej nie mierzyć.
Tymczasem ankieta ControlMonkey (styczeń 2026) ujawniła, że 58% zespołów chmurowych natknęło się już na miskonfiguracje wprowadzone przez AI, a 81% zespołów governance mówi, że manualny review nie nadąża za tempem generowania AI. Dane Veracode z Q1 2026 pokazują, że 41% kodu backendowego generowanego przez AI trafia na produkcję ze zbyt szerokimi uprawnieniami — cyfrowy odpowiednik wręczenia wszystkim w biurze klucza generalnego, bo tak jest szybciej niż ustalanie, kto czego potrzebuje.
Co to oznacza dla ciebie
Narzędzia Policy-as-Code istnieją — OPA, Checkov, tfsec — automatyczne skanery, które łapią niebezpieczne lub niezgodne konfiguracje infra przed deploymentem. Żadne narzędzie AI do kodowania nie integruje ich domyślnie w swoim pipeline agentów. Musisz je podpiąć sam. I nie zrobisz tego, bo cały selling point tych agentów polega na tym, że nie musisz nic podpinać sam. Zgrabny paradoks.
Każdy plik infrastrukturalny wygenerowany przez AI potrzebuje osobnego, surowszego review: walidacja dry-run, estymacja kosztów, audyt least-privilege. Twoje narzędzie nie narysuje za ciebie tej linii. Narysujesz ją sam, albo narysuje ją za ciebie rachunek z AWS.
Niewidzialna ściana
Historia produktywności AI w kodowaniu właśnie uderzyła w granicę, o której nikt nie ogłosił: linię między kodem, który działa wewnątrz twojej aplikacji, a kodem, który uruchamia twoją aplikację. Po jednej stronie 99% na benchmarkach i realne oszczędności czasu. Po drugiej 24,7% success rate, 8,4% zgodności z bezpieczeństwem i dokładnie zero guardrails.
Nadal zatwierdzasz Terraform tym samym spojrzeniem, co funkcję pomocniczą. Nikt nie dostarczył etykiety ostrzegawczej. Uznaj tę za swoją.





