Meta et Oracle choisissent NVIDIA Spectrum-X pour les centres de données IA - Actualité sur le financement de l'innovation

Meta et Oracle mettent à niveau leurs centres de données d’IA avec les commutateurs réseau Ethernet Spectrum-X de NVIDIA, une technologie conçue pour répondre aux demandes croissantes des systèmes d’IA à grande échelle. Les deux sociétés adoptent Spectrum-X dans le cadre d’un cadre de réseau ouvert conçu pour améliorer l’efficacité de la formation en IA et accélérer le déploiement sur des clusters de calcul massifs.

Jensen Huang, fondateur et PDG de NVIDIA, a déclaré que les modèles comportant des milliards de paramètres transforment les centres de données en « usines d’IA à grande échelle », ajoutant que Spectrum-X agit comme le « système nerveux » connectant des millions de GPU pour former les plus grands modèles jamais construits.

Oracle prévoit d’utiliser Spectrum-X Ethernet avec son architecture Vera Rubin pour construire des usines d’IA à grande échelle. Mahesh Thiagarajan, vice-président exécutif d’Oracle Cloud Infrastructure, a déclaré que la nouvelle configuration permettra à l’entreprise de connecter des millions de GPU plus efficacement, aidant ainsi les clients à former et à déployer de nouveaux modèles d’IA plus rapidement.

Meta, quant à elle, étend son infrastructure d’IA en intégrant les commutateurs Ethernet Spectrum-X dans le Facebook Open Switching System (FBOSS), sa plate-forme interne de gestion des commutateurs réseau à grande échelle. Selon Gaya Nagarajan, vice-président de l’ingénierie réseau de Meta, le réseau de nouvelle génération de l’entreprise doit être ouvert et efficace pour prendre en charge des modèles d’IA toujours plus vastes et fournir des services à des milliards d’utilisateurs.

Construire des systèmes d’IA flexibles

Selon Joe DeLaere, responsable du portefeuille de solutions de calcul accéléré de NVIDIA pour les centres de données, la flexibilité est essentielle à mesure que les centres de données deviennent de plus en plus complexes. Il a expliqué que le système MGX de NVIDIA offre une conception modulaire et modulaire qui permet aux partenaires de combiner différents processeurs, GPU, composants de stockage et de réseau selon leurs besoins.

Le système favorise également l’interopérabilité, permettant aux organisations d’utiliser la même conception sur plusieurs générations de matériel. « Il offre de la flexibilité, une mise sur le marché plus rapide et une préparation pour l’avenir », a déclaré DeLaere aux médias.

À mesure que les modèles d’IA prennent de l’ampleur, l’efficacité énergétique est devenue un défi central pour les centres de données. DeLaere a déclaré que NVIDIA travaille « de la puce au réseau » pour améliorer la consommation d’énergie et l’évolutivité, en collaborant étroitement avec les fournisseurs d’énergie et de refroidissement pour maximiser les performances par watt.

Un exemple est le passage à une alimentation électrique de 800 volts CC, qui réduit les pertes de chaleur et améliore l’efficacité. La société introduit également une technologie de lissage de l’énergie pour réduire les pics sur le réseau électrique – une approche qui peut réduire les besoins en énergie maximum jusqu’à 30 %, permettant ainsi une plus grande capacité de calcul dans la même empreinte.

Mise à l’échelle, à l’extérieur et à travers

Le système MGX de NVIDIA joue également un rôle dans la manière dont les centres de données sont mis à l’échelle. Gilad Shainer, vice-président senior des réseaux de l’entreprise, a déclaré aux médias que les racks MGX hébergent à la fois des composants de calcul et de commutation, prenant en charge NVLink pour une connectivité évolutive et Spectrum-X Ethernet pour une croissance évolutive.

Il a ajouté que MGX peut connecter plusieurs centres de données d’IA ensemble en tant que système unifié – ce dont des entreprises comme Meta ont besoin pour prendre en charge des opérations massives de formation en IA distribuées. En fonction de la distance, ils peuvent relier les sites via une fibre noire ou des commutateurs MGX supplémentaires, permettant des connexions à haut débit entre les régions.

L’adoption par Meta de Spectrum-X par l’IA reflète l’importance croissante des réseaux ouverts. Shainer a déclaré que la société utiliserait FBOSS comme système d’exploitation réseau, mais a noté que Spectrum-X en prend en charge plusieurs autres, notamment Cumulus, SONiC et le NOS de Cisco via des partenariats. Cette flexibilité permet aux hyperscalers et aux entreprises de standardiser leur infrastructure en utilisant les systèmes les mieux adaptés à leur environnement.

Élargir l’écosystème de l’IA

NVIDIA considère Spectrum-X comme un moyen de rendre l’infrastructure d’IA plus efficace et accessible à différentes échelles. Shainer a déclaré que la plate-forme Ethernet a été conçue spécifiquement pour les charges de travail d’IA telles que la formation et l’inférence, offrant une bande passante efficace jusqu’à 95 % et surpassant largement l’Ethernet traditionnel.

Il a ajouté que les partenariats de NVIDIA avec des sociétés telles que Cisco, xAI, Meta et Oracle Cloud Infrastructure contribuent à étendre Spectrum-X à une gamme plus large d’environnements, des hyperscalers aux entreprises.

Se préparer pour Vera Rubin et au-delà

DeLaere a déclaré que la prochaine architecture Vera Rubin de NVIDIA devrait être disponible dans le commerce au cours du second semestre 2026, et que le produit Rubin CPX arrivera d’ici la fin de l’année. Les deux fonctionneront aux côtés du réseau Spectrum-X et des systèmes MGX pour prendre en charge la prochaine génération d’usines d’IA.

Il a également précisé que Spectrum-X et XGS partagent le même matériel de base mais utilisent des algorithmes différents pour différentes distances : Spectrum-X pour les centres de données internes et XGS pour la communication entre centres de données. Cette approche minimise la latence et permet à plusieurs sites de fonctionner ensemble comme un seul grand supercalculateur IA.

Collaborer tout au long de la chaîne énergétique

Pour prendre en charge la transition vers le courant continu de 800 volts, NVIDIA travaille avec des partenaires du niveau des puces jusqu’au réseau. La société collabore avec Onsemi et Infineon sur les composants d’alimentation, avec Delta, Flex et Lite-On au niveau des racks, et avec Schneider Electric et Siemens sur la conception des centres de données. Un livre blanc technique détaillant cette approche sera publié lors du Sommet OCP.

DeLaere a décrit cela comme une « conception holistique allant du silicium à la fourniture d’énergie », garantissant que tous les systèmes fonctionnent ensemble de manière transparente dans les environnements d’IA haute densité exploités par des sociétés comme Meta et Oracle.

Avantages en termes de performances pour les hyperscalers

Spectrum-X Ethernet a été spécialement conçu pour les charges de travail d’informatique distribuée et d’IA. Shainer a déclaré qu’il offre un routage adaptatif et un contrôle de la congestion basé sur la télémétrie pour éliminer les points chauds du réseau et offrir des performances stables. Ces fonctionnalités permettent des vitesses de formation et d’inférence plus élevées tout en permettant à plusieurs charges de travail de s’exécuter simultanément sans interférence.

Il a ajouté que Spectrum-X est la seule technologie Ethernet éprouvée pour évoluer à des niveaux extrêmes, aidant les organisations à obtenir les meilleures performances et le meilleur retour sur leurs investissements GPU. Pour les hyperscalers tels que Meta, cette évolutivité permet de gérer les demandes croissantes de formation en IA et de maintenir l’efficacité de l’infrastructure.

Matériel et logiciels travaillant ensemble

Même si NVIDIA se concentre souvent sur le matériel, DeLaere estime que l’optimisation logicielle est tout aussi importante. L’entreprise continue d’améliorer ses performances grâce à la co-conception, en alignant le développement matériel et logiciel pour maximiser l’efficacité des systèmes d’IA.

NVIDIA investit dans les noyaux FP4, des frameworks tels que Dynamo et TensorRT-LLM et des algorithmes tels que le décodage spéculatif pour améliorer le débit et les performances du modèle d’IA. Ces mises à jour, a-t-il déclaré, garantissent que des systèmes comme Blackwell continuent de fournir de meilleurs résultats au fil du temps pour les hyperscalers tels que Meta qui s’appuient sur des performances d’IA cohérentes.

Mise en réseau pour l’ère des billions de paramètres

La plate-forme Spectrum-X, qui comprend des commutateurs Ethernet et des SuperNIC, est le premier système Ethernet de NVIDIA spécialement conçu pour les charges de travail d’IA. Il est conçu pour relier efficacement des millions de GPU tout en maintenant des performances prévisibles dans les centres de données IA.

Avec une technologie de contrôle de congestion atteignant jusqu’à 95 % de débit de données, Spectrum-X marque un progrès majeur par rapport à l’Ethernet standard, qui n’atteint généralement qu’environ 60 % en raison de collisions de flux. Sa technologie XGS prend également en charge les liaisons longue distance entre les centres de données d’IA, connectant les installations de toutes les régions en « super usines d’IA » unifiées.

En regroupant la pile complète de NVIDIA (GPU, CPU, NVLink et logiciels), Spectrum-X fournit les performances constantes nécessaires pour prendre en charge les modèles comportant des milliards de paramètres et la prochaine vague de charges de travail d’IA générative.

(Photo de Nvidia)