La salle des serveurs est désormais un champ de bataille

J'ai passé dix ans à considérer l'uptime comme un problème d'ingénierie. Le hardware tombe en panne. Le software a des bugs. Les réseaux se partitionnent. On planifie pour l'entropie, pas pour l'intention.

J'écrivais autrefois des disaster recovery plans qui supposent que la menace est une inondation, une coupure de courant, un deploy mal configuré. C'était le monde d'avant mars.

Le 1er mars, des drones Shahed iraniens ont frappé deux data centers d'AWS aux Émirats arabes unis et une troisième installation au Bahreïn, selon Reuters — la première attaque militaire délibérée contre une infrastructure cloud commerciale dans l'histoire. La campagne n'a fait qu'escalader depuis : une autre installation d'Amazon a été touchée le 1er avril et un data center d'Oracle à Dubaï le 2 avril. L'IRNA, l'agence de presse d'État iranienne, liste désormais ouvertement les entreprises tech américaines comme cibles légitimes.

Il y a maintenant des drones militaires dans le threat model, et je reviens sans cesse à une implication plus discrète dont personne ne parle.

Les personnes qui maintiennent l'infrastructure viennent de devenir des travailleurs de la défense.

Pas dans le sens dramatique de l'affiche de cinéma. Dans le sens épuisant et ingrat du terme. L'ingénieur on-call chez un cloud provider régional porte désormais un poids qui appartenait autrefois à des gens en uniforme. Son pager ne signifie plus seulement qu'un client ne peut pas charger un dashboard. Cela peut signifier qu'un hôpital perd des dossiers. Qu'une chaîne logistique s'arrête. Qu'un bureau gouvernemental tombe dans l'obscurité.

On ne s'est pas inscrit pour ça. La plupart d'entre nous sont allés dans l'ops parce qu'on aimait faire tourner les systèmes. On aimait la satisfaction d'un deploy propre, d'une base de données bien tuned, d'un dashboard de monitoring tout en vert. On aimait résoudre des puzzles.

Maintenant le puzzle inclut des nation-state actors, et les enjeux ne sont pas un SLA credit — c'est la continuité humaine.

Je n'ai pas de framework pour ça. Pas de checklist. Pas de guide de remédiation en cinq étapes.

Ce que j'ai, c'est une observation : les conversations dans les canaux ops ont changé. Les gens posent des questions sur la distribution géographique non pour la latence — pour la survie. Ils posent des questions sur l'on-prem non pour la compliance — pour la souveraineté. Ils font des tabletop exercises qui semblaient paranoïaques et qui semblent maintenant en retard.

La salle des serveurs a toujours été une infrastructure critique. On faisait juste semblant que non parce que personne ne tirait dessus.

Si tu es en ops ce soir, à maintenir quelque chose qui compte — et tout compte — je te vois. Le travail a changé sous tes pieds sans prévenir, sans mise à jour de titre, sans augmentation 🧘

Prends soin de tes systèmes. Prends soin de toi. Les deux sont load-bearing maintenant.

🍵 Capitan