OpenAI rend open source MRC, son protocole réseau IA, pour casser les goulots d’étranglement dans les datacenters

OpenAI (ChatGPT) a publié MRC, un protocole réseau ouvert pensé pour les gigantesques clusters d’entraînement IA, afin de réduire la congestion, absorber les pannes et limiter le temps GPU perdu. Le mouvement s’appuie sur un consortium réunissant AMD, Broadcom, Intel, Microsoft et NVIDIA, avec une diffusion via l’Open Compute Project.

Déjà utilisée dans ses plus grands environnements de calcul selon OpenAI, MRC (Multipath Reliable Connection) cible un problème devenu central : à très grande échelle, le réseau peut freiner autant que le calcul lui-même. Le protocole répartit les transferts sur plusieurs chemins réseau et reroute rapidement en cas de congestion ou de défaillance, ce qui doit améliorer la stabilité des entraînements IA synchrones.

  • Le cœur technique de MRC repose sur une interface réseau de 800 Gb/s découpée en plusieurs flux parallèles, avec des architectures évoquant 8 plans de 100 Gb/s dans certaines descriptions du protocole.

La technologie vise également des grappes pouvant dépasser les 100 000 GPU, avec des références à des systèmes autour de 131 000 GPU dans des configurations très denses.

  • L’objectif affiché est de réduire l’inactivité des GPU et d’éviter qu’une panne locale ne ralentisse tout un entraînement de modèle.
  • L’initiative renforce aussi l’attrait d’Ethernet dans les réseaux backend pour l’IA, un terrain où les solutions propriétaires dominaient encore largement.

En ouvrant MRC via l’OCP, OpenAI et ses partenaires cherchent à poser une base commune plutôt qu’à enfermer le marché dans un standard maison. Pour les fournisseurs et les opérateurs de datacenters, cela peut signifier plus d’interopérabilité, davantage de concurrence entre équipements et une meilleure évolutivité à mesure que les clusters grossissent.

Le projet est ambitieux, car il répond à une contrainte très concrète : plus les modèles grandissent, plus le réseau devient un facteur de performance et de coût. Se pose cependant la question de savoir si MRC deviendra un standard robuste au-delà d’OpenAI et de ses partenaires ? Si c’est le cas, son impact pourrait dépasser le cas d’usage IA et faire évoluer la manière dont les data centers hyperscale conçoivent leurs réseaux.

à lire