L'infrastructure NVIDIA et Google réduit les coûts d'inférence de l'IA - Actualité sur le financement de l'innovation

Lors de la conférence Google Cloud Next, Google et NVIDIA ont présenté leur feuille de route matérielle conçue pour réduire le coût de l’inférence de l’IA à grande échelle.

Les sociétés ont détaillé les nouvelles instances nues A5X, qui fonctionnent sur des systèmes à l’échelle rack NVIDIA Vera Rubin NVL72. Grâce à la conception matérielle et logicielle, cette architecture vise à offrir un coût d’inférence par jeton jusqu’à dix fois inférieur à celui des générations précédentes, tout en atteignant simultanément un débit de jetons par mégawatt dix fois supérieur.

La connexion de milliers de processeurs nécessite une bande passante massive pour éviter les retards de traitement. Les instances A5X relèvent ce défi matériel en associant les SuperNIC NVIDIA ConnectX-9 à la technologie réseau Google Virgo.

Cette configuration s’étend jusqu’à 80 000 GPU NVIDIA Rubin au sein d’un cluster de site unique et jusqu’à 960 000 GPU sur un déploiement multisite. Opérer à cette échelle nécessite une gestion sophistiquée de la charge de travail, car le routage des données sur près d’un million de processeurs parallèles nécessite une synchronisation exacte pour éviter les temps de calcul inactifs.

Mark Lohmeyer, vice-président et directeur général de l’IA et de l’infrastructure informatique chez Google Cloud, a déclaré : « Chez Google Cloud, nous pensons que la prochaine décennie de l’IA sera façonnée par la capacité des clients à exécuter leurs charges de travail les plus exigeantes sur une pile d’infrastructure véritablement intégrée et optimisée pour l’IA.

« En combinant l’infrastructure évolutive et les services d’IA gérés de Google Cloud avec les plates-formes, systèmes et logiciels de pointe de NVIDIA, nous offrons aux clients la flexibilité de former, régler et servir tout, des modèles frontières et ouverts aux charges de travail d’IA agentiques et physiques, tout en optimisant les performances, les coûts et la durabilité.

Exigences souveraines en matière de gouvernance des données et de sécurité du cloud

Au-delà des capacités de traitement brut, la gouvernance des données reste un enjeu primordial pour les déploiements en entreprise. Les secteurs hautement réglementés, notamment la finance et la santé, bloquent souvent les initiatives d’apprentissage automatique en raison des exigences de souveraineté des données et des risques liés à l’exposition d’informations exclusives.

Pour répondre à ces obligations de conformité, les modèles Google Gemini fonctionnant sur les GPU NVIDIA Blackwell et Blackwell Ultra entrent en préversion sur Google Distributed Cloud. Cette méthode de déploiement permet aux organisations de conserver entièrement leurs modèles frontières dans leurs environnements contrôlés, aux côtés de leurs magasins de données les plus sensibles.

L’architecture intègre NVIDIA Confidential Computing. Ce protocole de sécurité au niveau matériel garantit que les modèles de formation fonctionnent dans un environnement protégé où les invites et les données de réglage restent cryptées. Le cryptage empêche les parties non autorisées, y compris les opérateurs d’infrastructure cloud eux-mêmes, de consulter ou de modifier les données sous-jacentes.

Pour les environnements de cloud public multi-locataires, un aperçu des machines virtuelles Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell introduit ces mêmes protections cryptographiques, permettant aux industries réglementées d’accéder à du matériel hautes performances sans violer les normes de confidentialité des données. Cette version représente la première offre informatique confidentielle basée sur le cloud pour les GPU NVIDIA Blackwell.

Frais généraux opérationnels dans la formation à l’IA agentique

La création de systèmes agentiques en plusieurs étapes nécessite de connecter de grands modèles de langage à des interfaces de programmation d’applications complexes, de maintenir une synchronisation continue des bases de données vectorielles et d’atténuer activement les hallucinations algorithmiques pendant l’exécution.

Pour rationaliser cette lourde exigence d’ingénierie, NVIDIA Nemotron 3 Super est désormais disponible sur la plateforme Gemini Enterprise Agent. La plateforme fournit aux développeurs des outils pour personnaliser et déployer des modèles de raisonnement et multimodaux spécifiquement conçus pour les tâches agentiques. La plate-forme NVIDIA plus large sur Google Cloud est optimisée pour divers modèles, y compris les familles Gemini et Gemma de Google, offrant aux développeurs les outils nécessaires pour construire des systèmes qui raisonnent, planifient et agissent.

La formation de ces modèles à grande échelle entraîne une surcharge opérationnelle importante, en particulier lors de la gestion du dimensionnement des clusters et des pannes matérielles au cours de longs cycles d’apprentissage par renforcement.

Google Cloud et NVIDIA ont introduit des clusters de formation gérés sur la plate-forme d’agent Gemini Enterprise, qui comprend une API d’apprentissage par renforcement géré construite avec NVIDIA NeMo RL. Ce système automatise le dimensionnement des clusters, la reprise après panne et l’exécution des tâches, permettant aux équipes de science des données de se concentrer sur la qualité des modèles plutôt que sur la gestion de l’infrastructure de bas niveau.

CrowdStrike utilise activement les bibliothèques ouvertes NVIDIA NeMo, notamment NeMo Data Designer et NeMo Megatron Bridge, pour générer des données synthétiques et affiner les modèles pour les applications de cybersécurité spécifiques à un domaine. L’exploitation de ces modèles sur des clusters de formation gérés avec des GPU Blackwell accélère leurs capacités automatisées de détection et de réponse aux menaces.

Intégration d’architectures existantes et simulations physiques

L’intégration de l’apprentissage automatique dans l’industrie lourde et la fabrication présente une autre classe de défis d’ingénierie. La connexion de modèles numériques aux usines physiques nécessite des simulations physiques exactes, une puissance de calcul massive et une standardisation des formats de données existants. L’infrastructure d’IA et les bibliothèques physiques d’IA de NVIDIA sont désormais disponibles sur Google Cloud, fournissant ainsi aux organisations la base nécessaire pour simuler et automatiser les flux de travail de fabrication réels.

De grands fournisseurs de logiciels industriels – tels que Cadence et Siemens – ont rendu leurs solutions disponibles sur Google Cloud, accélérées par l’infrastructure NVIDIA. Ces outils alimentent l’ingénierie et la fabrication de machines lourdes, de plates-formes aérospatiales et de véhicules autonomes.

Les entreprises manufacturières utilisent souvent des systèmes de gestion du cycle de vie des produits vieux de plusieurs décennies, ce qui rend difficile la traduction des données géométriques et physiques. En utilisant les bibliothèques NVIDIA Omniverse et le framework open source NVIDIA Isaac Sim via Google Cloud Marketplace, les développeurs peuvent contourner certains de ces problèmes de traduction pour construire des jumeaux numériques physiquement précis et former des pipelines de simulation robotique avant le déploiement physique.

Le déploiement de microservices NVIDIA NIM, tels que le modèle Cosmos Reason 2, sur Google Vertex AI et Google Kubernetes Engine permet aux agents et robots basés sur la vision d’interpréter et de naviguer dans leur environnement physique. Ensemble, ces plates-formes aident les développeurs à passer directement de la conception assistée par ordinateur à des jumeaux numériques industriels vivants.

Impacts sur l’écosystème de calcul accéléré

Traduire ces spécifications matérielles en retours financiers quantifiables nécessite d’inspecter la manière dont les premiers utilisateurs utilisent l’infrastructure.

Le vaste portefeuille comprend des options allant des racks NVL72 complets aux machines virtuelles G4 fractionnées offrant seulement un huitième de GPU. Cela permet aux clients de fournir avec précision des capacités d’accélération pour des tâches de raisonnement et de traitement de données associant des experts.

Thinking Machines Lab fait évoluer son API Tinker sur les VM A4X Max pour accélérer la formation. OpenAI utilise l’inférence à grande échelle sur les systèmes NVIDIA GB300 et GB200 NVL72 sur Google Cloud pour gérer les charges de travail exigeantes, y compris les opérations ChatGPT.

Snap a migré ses pipelines de données vers Spark accéléré par GPU sur Google Cloud afin de réduire les coûts importants associés aux tests A/B à grande échelle. Dans le secteur pharmaceutique, Schrödinger exploite le calcul accéléré de NVIDIA sur Google Cloud pour compresser les simulations de découverte de médicaments qui prenaient auparavant des semaines en quelques heures.

L’écosystème de développeurs qui fait évoluer ces outils s’est rapidement développé. Plus de 90 000 développeurs ont rejoint la communauté commune de développeurs NVIDIA et Google Cloud en un an.

Des startups comme CodeRabbit et Factory appliquent des modèles basés sur NVIDIA Nemotron sur Google Cloud pour exécuter des révisions de code et exécuter des agents de développement logiciel autonomes. Aible, Mantis AI, Photoroom et Baseten créent des solutions de données d’entreprise, d’intelligence vidéo et d’imagerie générative à l’aide de la plate-forme full-stack.

Ensemble, NVIDIA et Google Cloud visent à fournir une base informatique conçue pour faire progresser les agents expérimentaux et les simulations vers des systèmes de production qui sécurisent les flottes et optimisent les usines dans le monde physique.