Nous avons évoqué l’orage massif à Sydney (Australie), le 30 août, qui a planté les cloud Azure et Oracle. Microsoft a réagi et accuse les équipes du datacenter.
Rappel : Dans la soirée du 30 août, à Sydney (Australie), un orage aux 22 000 éclairs a entraîné des pannes de service qui ont eu raison des cloud Azure, Oracle et NetSuite (Lire « A Sydney, l’orage a coupé le cloud« ).
- Dans son rapport post-incident, Microsoft a confirmé que la panne serait due à une baisse de puissance dans la région Est de l’Australie, qui à son tour « a mis hors ligne un sous-ensemble des unités de refroidissement dans un datacenter, dans l’une des zones de disponibilité ».
L’augmentation de la température liée aux dysfonctionnements des unités de refroidissement a forcé un arrêt automatisé du datacenter pour préserver infrastructure et données et de l’infrastructure. C’est ainsi que les services de calcul, de stockage et de réseau d’Azure ont été perturbés.
Mais, Microsoft se montre très critique à l’encontre du datacenter, pointant le manque de personnel et l’automatisation :
- Le manque de personnel disponible dans le datacenter (3 personnes lors de l’incident) n’aurait pas permis de redémarrer manuellement les unités de refroidissement. « En raison de la taille du campus de datacenters, les effectifs de l’équipe de nuit étaient insuffisants pour redémarrer les refroidisseurs à temps« .
- Microsoft a également déclaré travailler à la réforme de l’automatisation du datacenter afin d’améliorer le rétablissement des services en cas d’incident. « Nous étudions des moyens d’améliorer l’automatisation existante pour être plus résiliente aux différents types d’événements de chute de tension« .