Un « thermal event » dans un datacenter a affecté la région West Europe de Microsoft Azure ce 5 novembre, confirmé par le géant du cloud. L’incident d’infrastructure est lié aux systèmes d » refroidissement des unités de stockage d’un datacenter.
La région West Europe du cloud Microsoft Azure a été victime d’un incident thermique (thermal event) qui qui a entraîné la mise hors ligne de plusieurs unités de stockage dans une zone de disponibilité et provoqué des dégradations ou des interruptions de services pour un sous-ensemble de clients.
Les informations portées à notre connaissance confirment un incident sur les systèmes de refroidissement du datacenter (air/échangeurs ou systèmes auxiliaires) qui a entraîné une montée de température localisée. Pour protéger le matériel, plusieurs unités de stockage de données ont été mis hors service automatiquement ou manuellement, leur indisponibilité provoquant des pertes d’accès aux ressources qui en dépendaient.
Ces arrêts ont entraîné des perturbations sur plusieurs services, dont les Virtual Machines, les bases de données gérées Azure Database for PostgreSQL, Flexible Servers, MySQL Flexible Servers, Azure Kubernetes Service, Storage, Service Bus, Virtual Machine Scale Sets, Databricks, etc.
Transparent, Microsoft a communiqué des mises à jour via son tableau d’état (Azure Status) et préparé un examen post-incident (PIR).
Impacts en cascade si un maillon physique flanche
L’incident met en évidence les dépendances physiques de services cloud modernes qui s’appuient sur des redondances logiques et les impacts opérationnels significatifs en cas d’incident : même si des services sont répliqués, ils s’appuient sur un même équipement de stockage physique (ou une même salle ou un même cluster), et si une unité physique critique tombe (panne physique), elle peut briser la redondance ce qui va provoquer des cascades d’impact.
L’incident démontre l’intérêt des procédures standard – isolation de la zone affectée, bascule automatique si possible, redémarrage contrôlé des unités – associées à la protection automatique du matériel. Ici, face à une surchauffe, les systèmes ont arrêté des composants pour éviter des dommages matériels, ce qui provoque des interruptions de service immédiates. Mais les corrélations d’incident ont entraîné les chaînes de dépendance complexes sur plusieurs couches d’infrastructures, stockage, réseau, orchestration…

