Fin 2022, Meta interrompt la construction de certains de ses datacenters afin de redéfinir leur conception pour intégrer l’IA. Design modernisé, la construction repart et supporte la nouvelle conception.
Meta (Facebook) annonçait fin 2022 la suspension voire l’annulation de projets de datacenters en cours de développement dans le monde. Par cette décision radicale, Meta entendait repenser la conception et la construction de ses centres de données. L’objectif étant de pouvoir associer dans ses installations les workloads traditionnelles et celles de l’IA.
Les réflexions de Meta pour un datacenter de nouvelle génération
- La réflexion de Meta a tout d’abord porté sur les processeurs. Le groupe entendait miser sur le développement d’une puce interne (à l’image de TPU de Google, Trainium d’AWS et Athena de Microsoft). Mais le résultat a déçu et cette puce semble avoir été abandonnée, au profit des GPU dans un premier temps.
- Meta va cependant continuer le développement de puces internes, en particulier pour le transcodage vidéo : Meta Scalable Video Processor (MSVP).
Meta travaille actuellement sur la conception d’une puce MTIA (Meta Training and Inference Accelerator), un semi-conducteur basé sur le nœud de processus 7 nm fabriqué par TSMC, qui fonctionne à 800 mégahertz, dispose d’une petite réserve de puissance de 25 watts, et fournit un calcul de précision de 102 sommets d’entier (8 bits) ou 51,2 téraflops de calcul de précision FP16.
- Meta revoit la conception de ses datacenters autour de clusters personnalisés de 1 000 à plus 30 000 accélérateurs, les serveurs étant interconnectés en fibre.
- Chaque datacenter dispose d’un réseau back-end plat spécialisé, haut débit à faible latence avec des contraintes sur les paramètres physiques de la distance dans laquelle sont dispersés les GPU.
Refroidissement par air et eau
- Les GPU nécessitant plus de puissance que les CPU, la conception actuelle des datacenters n’est plus adaptée.
- Sur la majorité des workload qui demeurent traditionnelles, Meta va continuer d’exploiter le refroidissement par air.
- Sur les workloads d’IA ou nécessitant des GPU, Meta a retenu le refroidissement par eau (liquid cooling). Le processus étant considéré comme compliqué, son déploiement initial sera réduit, et il sera soumis à la progression de la demande.
- Et il semblerait que Meta teste l’immersion, mais n’a pas encore retenu cette solution de refroidissement.
Meta révise la chaîne de distribution d’énergie
- Meta a indiqué qu’il a modifié la conception de son infrastructure pour permettre l’utilisation de plus d’énergie, tout en éliminant le plus d’équipements possibles tout au long de la chaîne de distribution de l’électricité.
- L’infrastructure électrique est rapprochée du rack serveur.
- L’appareillage basse tension, considéré comme un goulot d’étranglement, est éliminé.
Enfin Meta a indiqué assumer certains compromis, comme le refroidissement par air et eau, la réduction du nombre de générateurs diesel, et d’autres résiliences physiques. Ou encore assumer des risques inconnus liés à la résilience logicielle, à l’usage de mémoire tampon, ou aux logiciels des workloads d’IA.
Selon Meta, le datacenter de nouvelle génération peut être construit deux fois plus rapidement et il serait 31% plus rentable.
Meta relance la construction de datacenters
C’est donc sur les bases du datacenter de nouvelle génération que Meta Meta a repris la construction de ses datacenters de Temple au Texas, un investissement de plus de 800 millions de dollars, et à Kuna dans l’Idaho pour un investissement équivalent, et à chaque fois plus de 1000 emplois dans la construction.