Cisco est entré dans une course de plus en plus compétitive pour dominer la technologie d’interconnexion des centres de données d’IA, devenant ainsi le dernier acteur majeur à dévoiler un matériel de routage spécialement conçu pour connecter des charges de travail d’IA distribuées sur plusieurs installations.
Le géant des réseaux a dévoilé son système de routage 8223 le 8 octobre, présentant ce qu’il prétend être le premier routeur fixe de 51,2 térabits par seconde du secteur, spécialement conçu pour relier les centres de données exécutant des charges de travail d’IA.
À la base se trouve la nouvelle puce Silicon One P200, qui représente la réponse de Cisco à un défi qui contraint de plus en plus le secteur de l’IA : que se passe-t-il lorsque vous manquez de marge de croissance ?
Une bataille à trois pour la suprématie à grande échelle ?
Pour rappel, Cisco n’est pas le seul à reconnaître cette opportunité. Broadcom a lancé la première salve à la mi-août avec ses puces de commutateur/routeur StrataDNX « Jericho 4 », qui ont commencé à échantillonner et ont également offert 51,2 To/s de bande passante globale soutenue par la mémoire HBM pour une mise en mémoire tampon approfondie des paquets afin de gérer la congestion.
Deux semaines après l’annonce de Broadcom, Nvidia a dévoilé son réseau évolutif Spectrum-XGS, un nom particulièrement effronté étant donné que les commutateurs ASIC « Trident » et « Tomahawk » de Broadcom appartiennent à la famille StrataXGS.
Nvidia a choisi CoreWeave comme client principal, mais a fourni des détails techniques limités sur les ASIC Spectrum-XGS. Aujourd’hui, Cisco déploie ses propres composants pour le marché des réseaux à grande échelle, créant ainsi une concurrence à trois entre les poids lourds des réseaux.
Le problème : l’IA est trop grande pour un seul bâtiment
Pour comprendre pourquoi plusieurs fournisseurs se précipitent dans ce domaine, considérez l’ampleur de l’infrastructure d’IA moderne. La formation de grands modèles de langage ou l’exécution de systèmes d’IA complexes nécessitent des milliers de processeurs haute puissance travaillant de concert, générant d’énormes quantités de chaleur et consommant d’énormes quantités d’électricité.
Les centres de données rencontrent des limites strictes, non seulement en termes d’espace disponible, mais également en termes de quantité d’énergie qu’ils peuvent fournir et refroidir.
« Le calcul de l’IA dépasse même la capacité du plus grand centre de données, ce qui nécessite une connexion fiable et sécurisée de centres de données distants de plusieurs centaines de kilomètres », a déclaré Martin Lund, vice-président exécutif du Common Hardware Group de Cisco.
L’industrie a traditionnellement résolu les problèmes de capacité par deux approches : la mise à l’échelle (en ajoutant plus de capacités aux systèmes individuels) ou la mise à l’échelle (en connectant davantage de systèmes au sein de la même installation).
Mais les deux stratégies atteignent leurs limites. Les centres de données manquent d’espace physique, les réseaux électriques ne peuvent pas fournir suffisamment d’électricité et les systèmes de refroidissement ne peuvent pas dissiper la chaleur assez rapidement.
Cela impose une troisième approche : « à grande échelle », répartissant les charges de travail d’IA sur plusieurs centres de données qui peuvent se trouver dans différentes villes, voire différents États. Cependant, cela crée un nouveau problème : les connexions entre ces installations deviennent des goulots d’étranglement critiques.
Pourquoi les routeurs traditionnels ne suffisent pas
Les charges de travail d’IA se comportent différemment du trafic typique des centres de données. Les cycles de formation génèrent des modèles de trafic massifs et intenses : des périodes de mouvement de données intense suivies d’un calme relatif. Si le réseau reliant les centres de données ne peut pas absorber ces surtensions, tout ralentit, gaspillant des ressources informatiques coûteuses et, surtout, du temps et de l’argent.
Les équipements de routage traditionnels n’ont pas été conçus pour cela. La plupart des routeurs donnent la priorité soit à la vitesse brute, soit à une gestion sophistiquée du trafic, mais ont du mal à fournir les deux simultanément tout en maintenant une consommation d’énergie raisonnable. Pour les applications d’interconnexion des centres de données IA, les organisations ont besoin des trois : vitesse, mise en mémoire tampon intelligente et efficacité.
La réponse de Cisco : le système 8223
Le système 8223 de Cisco représente une rupture par rapport aux équipements de routage à usage général. Logé dans un châssis compact à trois racks, il offre 64 ports de connectivité de 800 Go, soit actuellement la densité la plus élevée disponible dans un système de routage fixe. Plus important encore, il peut traiter plus de 20 milliards de paquets par seconde et évoluer jusqu’à trois exaoctets par seconde de bande passante d’interconnexion.
La caractéristique distinctive du système est sa capacité de mise en mémoire tampon approfondie, activée par la puce P200. Considérez les tampons comme des zones de stockage temporaires pour les données, comme un réservoir qui récupère l’eau en cas de fortes pluies. Lorsque la formation de l’IA génère des pics de trafic, les tampons du 8223 absorbent le pic, évitant ainsi la congestion du réseau qui ralentirait autrement les clusters GPU coûteux qui attendent des données.
L’efficacité énergétique est un autre avantage essentiel. En tant que système 3RU, le 8223 atteint ce que Cisco décrit comme « l’efficacité énergétique d’un commutateur » tout en conservant les capacités de routage, cruciales lorsque les centres de données ont déjà mis à rude épreuve leurs budgets énergétiques.
Le système prend également en charge une optique cohérente 800G, permettant des connexions s’étendant jusqu’à 1 000 kilomètres entre les installations, ce qui est essentiel pour la répartition géographique de l’infrastructure d’IA.
Adoption par l’industrie et applications concrètes
Les grands hyperscalers déploient déjà cette technologie. Microsoft, l’un des premiers utilisateurs de Silicon One, a trouvé l’architecture utile dans de nombreux cas d’utilisation.
Dave Maltz, chercheur technique et vice-président d’Azure Networking chez Microsoft, a noté que « l’architecture ASIC commune nous a permis de passer plus facilement de nos cas d’utilisation initiaux à plusieurs rôles dans les environnements DC, WAN et AI/ML ».
Alibaba Cloud prévoit d’utiliser le P200 comme base pour étendre son architecture eCore. Dennis Cai, vice-président et responsable de l’infrastructure réseau chez Alibaba Cloud, a déclaré que la puce « nous permettra de nous étendre au réseau central, en remplaçant les routeurs traditionnels basés sur des châssis par un cluster d’appareils alimentés par le P200 ».
Lumen étudie également comment la technologie s’intègre dans ses plans d’infrastructure réseau. Dave Ward, directeur de la technologie et responsable des produits chez Lumen, a déclaré que la société « étudie comment la nouvelle technologie Cisco 8223 peut s’intégrer dans nos plans visant à améliorer les performances du réseau et à déployer des services de qualité supérieure pour nos clients ».
Programmabilité : pérenniser l’investissement
L’adaptabilité est un aspect souvent négligé de l’infrastructure d’interconnexion des centres de données IA. Les exigences en matière de mise en réseau de l’IA évoluent rapidement, avec l’émergence régulière de nouveaux protocoles et normes.
Le matériel traditionnel nécessite généralement un remplacement ou des mises à niveau coûteuses pour prendre en charge de nouvelles fonctionnalités. La programmabilité du P200 répond à ce défi.
Les organisations peuvent mettre à jour le silicium pour prendre en charge les protocoles émergents sans remplacer le matériel, ce qui est important lorsque les systèmes de routage individuels représentent des investissements en capital importants et que les normes de réseau IA restent en évolution.
Considérations de sécurité
La connexion de centres de données distants de plusieurs centaines de kilomètres pose des problèmes de sécurité. Le 8223 inclut un cryptage à débit linéaire utilisant des algorithmes résilients post-quantiques, répondant ainsi aux préoccupations concernant les menaces futures liées à l’informatique quantique. L’intégration avec les plates-formes d’observabilité de Cisco permet une surveillance détaillée du réseau pour identifier et résoudre rapidement les problèmes.
Cisco peut-il rivaliser ?
Alors que Broadcom et Nvidia revendiquent déjà leurs droits sur le marché des réseaux à grande échelle, Cisco fait face à une concurrence établie. L’entreprise présente cependant des avantages : une présence de longue date dans les réseaux d’entreprises et de fournisseurs de services, le portefeuille mature de Silicon One lancé en 2019 et des relations avec de grands hyperscalers utilisant déjà sa technologie.
Le 8223 est initialement livré avec le support open source SONiC, avec IOS XR prévu pour une disponibilité future. Le P200 sera disponible sur plusieurs types de plates-formes, y compris les systèmes modulaires et la gamme Nexus.
Cette flexibilité dans les options de déploiement pourrait s’avérer décisive alors que les organisations cherchent à éviter la dépendance vis-à-vis d’un fournisseur tout en développant une infrastructure d’IA distribuée.
Il reste à voir si l’approche de Cisco deviendra la norme du secteur en matière d’interconnexion des centres de données IA, mais le problème fondamental auquel les trois fournisseurs s’attaquent (connecter efficacement l’infrastructure d’IA distribuée) ne fera que devenir de plus en plus pressant à mesure que les systèmes d’IA continueront d’évoluer au-delà des limites d’une seule installation.
Le véritable gagnant pourrait en fin de compte être déterminé non seulement par les spécifications techniques, mais aussi par le fournisseur qui peut fournir l’écosystème le plus complet de logiciels, de support et de capacités d’intégration autour de son silicium.