La consommation énergétique de l’IA dans les datacenters

Le rapport « The AI Disruption: Challenges and Guidance for Data Center Design » de Schneider Electric prédit que la consommation électrique globale associée aux charges de travail d’IA atteindra environ 14 à 19 gigawatts en 2028.

L’IA tout en ambiguïté… Si l’industrie s’attend à ce que l’Intelligence Artificielle permette plus d’efficacité énergétique, dans un premier temps il faut payer la facture, à savoir que le défi de l’IA réside dans la croissance de la consommation énergétique imposée par les workloads d’opérations d’IA.

Le besoin croissant de workloads d’IA a un effet négatif sur la consommation d’énergie, et participe à l’augmentation de la consommation des datacenters :

  • La charge des workloads d’IA aura représenté environ 4,3 GW en 2023, soit 8% de la consommation globale des datacenters (57 GW).
  • En 2028, la charge de l’IA devrait représenter entre 14 et 19 GW, soit 15 à 20% de la consommation globale des datacenters (90 GW).

Si la répartition entre apprentissage et inférence devrait peu évoluer jusqu’en 2028 (20% / 80% en 2023 > 15% / 85% en 2028), la répartition géographique des workload va largement évoluer : de 95% centralisée et 5% Edge aujourd’hui, elle devrait s’équilibrer 50% central / 50% Edge en 2028.

  • Schneider Electric a calculé qu’un cluster d’IA de 22 500 GPU Nvidia H100 répartis dans environ 700 racks consomme 31 MW. Ces chiffres ne prennent pas en compte de refroidissement de l’infrastructure…

L’étude fait le constat qu’en IA l’apprentissage consomme moins d’énergie que l’inférence. Certes, mais la charge de l’apprentissage est gourmande en ressources (traitement de vastes ensembles de données) et nécessite des densités de rack très élevées.

Faire appel aux nouvelles génération s de GPU permet d’afficher une élévation des gains de productivités, mais est elle suffisante pour justifier l’augmentation significative de la consommation électrique qui l’accompagne ? L’industrie répond positivement. Quand une nouvelle génération de GPU double la performance, la consommation énergétique est mathématiquement divisée par deux.

  • Dernier constat, le refroidissement par air peut gérer efficacement jusqu’à une densité moyenne de 20 kW par rack. Mais les 20 kW représentent un seuil. Au-delà, le refroidissement liquide se révèle plus efficace. Schneider Electric souligne également que le refroidissement liquide offre des avantages en matière de durabilité en réduisant à la fois la consommation d’énergie et d’eau.

Attention cependant, en cas d’interruption du flux de fluide, la température peut augmenter beaucoup plus rapidement qu’avec un refroidissement par air, ce qui peut entraîner des arrêts plus rapides du système. Pour atténuer ce risque, Shneider Electric recommande d’utiliser des alimentations sans coupure (UPS) pour les pompes. Et d’utiliser le refroidissement liquide directement sur la puce.

à lire