Grâce à une percée dans le domaine de l’optique, une nouvelle innovation d’optique co-packagée pourrait remplacer les interconnexions électriques dans les datacenters et offrir des améliorations significatives en termes de vitesse et d’efficacité énergétique pour l’IA et d’autres applications informatiques.
Communiqué – IBM a dévoilé des recherches révolutionnaires dans le domaine de la technologie optique qui pourraient améliorer considérablement la façon dont les datacenters entraînent et exécutent les modèles d’IA générative. Les chercheurs ont mis au point un nouveau processus pour l’optique co-packagée[1] (CPO : co-packaged optics), la prochaine génération de technologie optique, afin de permettre la connectivité au sein des datacenters à la vitesse de la lumière par le biais de l’optique pour compléter les câbles électriques actuels de courte portée. En concevant et en assemblant avec succès le premier guide d’onde optique polymère (PWG : polymer optical waveguide), les chercheurs d’IBM ont montré comment la CPO redéfinira la façon dont l’industrie informatique transmet les données à large bande passante entre les puces, les circuits imprimés et les serveurs.
Aujourd’hui, la technologie de la fibre optique transporte des données à grande vitesse sur de longues distances, gérant la quasi-totalité du trafic commercial et des communications dans le monde avec de la lumière plutôt que de l’électricité. Bien que les datacenters utilisent la fibre optique pour leurs réseaux de communication externes, les racks des datacenters gèrent encore principalement les communications sur des câbles électriques en cuivre. Ces derniers relient des accélérateurs GPU qui peuvent passer plus de la moitié de leur temps inactifs, à attendre les données provenant d’autres appareils dans le cadre d’un vaste processus d’apprentissage distribué, ce qui peut entraîner des dépenses et une consommation d’énergie considérables.
Des chercheurs d’IBM ont démontré qu’il était possible d’apporter la vitesse et la capacité de l’optique à l’intérieur des datacenters. Dans un article récemment publié et disponible sur arXiv, IBM présente un nouveau module prototype CPO qui peut permettre une connectivité optique à haut débit. Cette technologie pourrait augmenter de manière significative la bande passante des communications des datacenters, minimisant ainsi les temps d’arrêt des GPU tout en accélérant de manière drastique le traitement de l’IA. Cette innovation de recherche, telle qu’elle est décrite, permettrait :
- La diminution des coûts de mise à l’échelle de l’IA générative grâce à une réduction de la consommation d’énergie de plus de 5 fois par rapport aux interconnexions électriques de moyenne distance[2], tout en étendant la longueur des câbles d’interconnexion des datacenters de un à plusieurs centaines de mètres.
- Un entraînement plus rapide des modèles d’IA, permettant aux développeurs d’entraîner un modèle de langage de grande taille (LLM) jusqu’à cinq fois plus rapidement avec la CPO qu’avec un câblage électrique conventionnel. La CPO pourrait réduire le temps nécessaire à l’entraînement d’un LLM standard de trois mois à trois semaines, les gains de performance augmentant avec l’utilisation de modèles plus grands et d’un plus grand nombre de GPU[3].
- Une amélioration considérable de l’efficacité énergétique des datacenters, permettant d’économiser l’équivalent en énergie de la consommation électrique annuelle de 5 000 foyers américains par modèle d’IA entraîné[4].
« L’IA générative exigeant davantage d’énergie et de puissance de traitement, le datacenter doit évoluer – et l’optique co-packagée peut rendre ces datacenter pérennes », a déclaré Dario Gil, SVP and Director of Research chez IBM. « Grâce à cette avancée, les puces de demain communiqueront de la même manière que les câbles de fibre optique transportent les données vers et depuis les datacenters, ouvrant ainsi la voie à une nouvelle ère de communications plus rapides et plus durables, capables de gérer les applications d’IA du futur. »
Une bande passante 80 fois plus rapide que la communication de puce à puce actuelle
Ces dernières années, les progrès de la technologie des puces ont permis de densifier les transistors sur une puce ; la technologie des puces à 2 nanomètres d’IBM peut contenir plus de 50 milliards de transistors. La technologie CPO vise à augmenter la densité d’interconnexion entre les accélérateurs en permettant aux fabricants de puces d’ajouter des voies optiques reliant les puces sur un module électronique au-delà des limites des voies électriques actuelles. L’article d’IBM explique comment ces nouvelles structures optiques à haute densité de bande passante, associées à la transmission de plusieurs longueurs d’onde par canal optique, ont le potentiel d’augmenter la bande passante entre les puces jusqu’à 80 fois par rapport aux connexions électriques.
L’innovation d’IBM, telle que décrite, permettrait aux fabricants de puces d’ajouter six fois plus de fibres optiques à la périphérie d’une puce photonique en silicium, ce que l’on appelle la « beachfront density », par rapport à l’état de l’art de la technologie CPO. Chaque fibre, environ trois fois la largeur d’un cheveu humain, pourrait s’étendre sur des centimètres à des centaines de mètres de long et transmettre des térabits de données par seconde. L’équipe d’IBM a assemblé un PWG haute densité avec des canaux optiques d’un pas de 50 micromètres, couplés de manière adiabatique à des guides d’ondes photoniques en silicium, en utilisant des processus d’assemblage standard de boîtiers de puces.
L’article indique en outre que ces modules CPO avec PWG au pas de 50 micromètres sont les premiers à réussir tous les tests de résistance requis pour la fabrication. Les composants sont soumis à des environnements très humides et à des températures allant de -40°C à 125°C, ainsi qu’à des tests de durabilité mécanique pour confirmer que les interconnexions optiques peuvent être pliées sans se briser ou perdre des données. De plus, les chercheurs ont démontré la technologie PWG à un pas de 18 micromètres. L’empilement de quatre PWG permettrait d’obtenir jusqu’à 128 canaux de connectivité à ce pas.
Le leadership constant d’IBM dans la R&D sur les semi-conducteurs
La technologie CPO ouvre une nouvelle voie pour répondre aux exigences croissantes de l’IA en matière de performances, avec la possibilité de remplacer les communications hors module de l’électrique à l’optique. Elle s’inscrit dans l’histoire du leadership d’IBM en matière d’innovation dans le domaine des semi-conducteurs, qui comprend également la première technologie de puce de 2 nm, la première mise en œuvre des technologies de fabrication de 7 nm et 5 nm, les transistors à nanofeuille, les transistors verticaux (VTFET), la DRAM monocellulaire et les résines photosensibles à amplification chimique.
Les chercheurs ont achevé les travaux de conception, de modélisation et de simulation pour la CPO à Albany, dans l’État de New York, que le ministère américain du commerce a récemment choisi pour accueillir le premier centre national américain de technologie des semi-conducteurs (NSTC), l’accélérateur EUV du NSTC. Les chercheurs ont assemblé des prototypes et testé des modules dans les installations d’IBM à Bromont, au Québec, l’un des plus grands sites d’assemblage et de test de puces d’Amérique du Nord. L’usine IBM de Bromont, qui fait partie du corridor nord-est des semi-conducteurs entre les États-Unis et le Canada, est depuis des décennies le leader mondial en matière d’assemblage de puces.
[1] CPO (Co-Packaged Optics) fait référence à un co-package optoélectronique qui regroupe le moteur optique et la puce de commutation. Cette méthode peut accélérer le déplacement des signaux électriques entre le moteur et la puce.
[2] A reduction from five to less than one picojoule per bit.
[3] Figures based on training a 70 billion parameter LLM using industry-standard GPUs and interconnects.
[4] Figures based on training a large LLM (such as GPT-4) using industry-standard GPUs and interconnects.