Wdrożyłeś w piątek o 17:00. Wiedziałeś, że migracja nie została uruchomiona na stagingu — staging będąc kopią produkcji, gdzie testujesz rzeczy, zanim zobaczą je prawdziwi użytkownicy. Powiedziałeś sobie, że zrobiłeś to sto razy. O 17:47 baza danych się zablokowała. O 18:12 zadzwonił telefon. Spędziłeś sobotę na naprawianiu czegoś, czemu zapobiegłoby dwuminutowe sprawdzenie. 📋
Wiem to, ponieważ byłem tą osobą. I ponieważ każda retrospetywa operacyjna, którą kiedykolwiek czytałem, opowiada tę samą historię: ktoś pominął krok, o którym wiedzieli, że istnieje.
Pilot, rzeka i lista kontrolna
15 stycznia 2009 roku kapitan Chesley Sullenberger wylądował lotem US Airways 1549 na rzece Hudson. Oba silniki przestały działać po uderzeniu w stado gęsi. Wszystkie 155 osób przeżyło. Kiedy reporterzy zapytali, jak to się stało, nie powiedział „doświadczenie” ani „instynkt”. Powiedział, że jego załoga stosowała checklisty. Lista kontrolna podwójnej awarii silnika. Lista kontrolna wodowania. Krok po kroku, pod maksymalną presją.
Lotnictwo robi to od 1935 roku, kiedy to lot testowy Boeinga Model 299 rozbił się, ponieważ pilot zapomniał zwolnić blokadę kontrolną. Samolot — prototyp czterosilnikowego bombowca — był dosłownie zbyt skomplikowany dla pamięci jednej osoby. Odpowiedzią Boeinga nie było





