La mise à l'échelle de l'IA agentique nécessite une nouvelle architecture de mémoire - Actualité sur le financement de l'innovation

L’IA agentique représente une évolution distincte des chatbots sans état vers des flux de travail complexes, et sa mise à l’échelle nécessite une nouvelle architecture de mémoire.

À mesure que les modèles de base évoluent vers des milliards de paramètres et que les fenêtres contextuelles atteignent des millions de jetons, le coût informatique de la mémorisation de l’histoire augmente plus rapidement que la capacité de le traiter.

Les organisations qui déploient ces systèmes sont désormais confrontées à un goulot d’étranglement où le volume considérable de « mémoire à long terme » (techniquement connue sous le nom de cache Key-Value (KV)) submerge les architectures matérielles existantes.

L’infrastructure actuelle impose un choix binaire : stocker le contexte d’inférence dans une mémoire GPU (HBM) rare et à large bande passante ou le reléguer dans un stockage lent et à usage général. Le premier est d’un coût prohibitif pour les grands contextes ; ce dernier crée une latence qui rend les interactions agentiques en temps réel non viables.

Pour remédier à cette disparité croissante qui freine le développement de l’IA agentique, NVIDIA a introduit la plate-forme ICMS (Inference Context Memory Storage) au sein de son architecture Rubin, proposant un nouveau niveau de stockage conçu spécifiquement pour gérer la nature éphémère et à grande vitesse de la mémoire de l’IA.

« L’IA révolutionne l’ensemble de la pile informatique, et maintenant le stockage », a déclaré Huang. « L’IA ne consiste plus en des chatbots ponctuels, mais en des collaborateurs intelligents qui comprennent le monde physique, raisonnent sur de longs horizons, restent ancrés dans les faits, utilisent des outils pour effectuer un travail réel et conservent une mémoire à court et à long terme. »

Le défi opérationnel réside dans le comportement spécifique des modèles basés sur transformateur. Pour éviter de recalculer l’intégralité d’un historique de conversation pour chaque nouveau mot généré, les modèles stockent les états précédents dans le cache KV. Dans les workflows agents, ce cache agit comme une mémoire persistante entre les outils et les sessions, augmentant de manière linéaire avec la longueur de la séquence.

Cela crée une classe de données distincte. Contrairement aux enregistrements financiers ou aux journaux clients, le cache KV est constitué de données dérivées ; il est essentiel pour des performances immédiates mais ne nécessite pas les lourdes garanties de durabilité des systèmes de fichiers d’entreprise. Les piles de stockage à usage général, fonctionnant sur des processeurs standards, dépensent de l’énergie en gestion et en réplication des métadonnées, ce dont les charges de travail agents n’ont pas besoin.

La hiérarchie actuelle, allant du GPU HBM (G1) au stockage partagé (G4), devient inefficace :

(Crédit : NVIDIA)

À mesure que le contexte passe du GPU (G1) à la RAM système (G2) et finalement au stockage partagé (G4), l’efficacité s’effondre. Le déplacement du contexte actif vers le niveau G4 introduit une latence de l’ordre de la milliseconde et augmente le coût en énergie par jeton, laissant les GPU coûteux inactifs pendant qu’ils attendent des données.

Pour l’entreprise, cela se manifeste par un coût total de possession (TCO) gonflé, où l’énergie est gaspillée en frais généraux d’infrastructure plutôt qu’en raisonnement actif.

Un nouveau niveau de mémoire pour l’usine IA

La réponse de l’industrie consiste à insérer une couche spécialement conçue dans cette hiérarchie. La plate-forme ICMS établit un niveau « G3.5 » : une couche flash connectée à Ethernet conçue explicitement pour l’inférence à grande échelle.

Cette approche intègre le stockage directement dans le module de calcul. En utilisant le processeur de données NVIDIA BlueField-4, la plateforme décharge la gestion de ces données contextuelles du processeur hôte. Le système fournit des pétaoctets de capacité partagée par pod, renforçant ainsi la mise à l’échelle de l’IA agentique en permettant aux agents de conserver d’énormes quantités d’historique sans occuper un HBM coûteux.

Le bénéfice opérationnel est quantifiable en termes de débit et d’énergie. En conservant un contexte pertinent dans ce niveau intermédiaire – qui est plus rapide que le stockage standard, mais moins cher que HBM – le système peut « préparer » la mémoire au GPU avant qu’elle ne soit nécessaire. Cela réduit le temps d’inactivité du décodeur GPU, permettant ainsi un nombre de jetons par seconde (TPS) jusqu’à 5 fois plus élevé pour les charges de travail à contexte long.

D’un point de vue énergétique, les implications sont également mesurables. Étant donné que l’architecture supprime la surcharge des protocoles de stockage à usage général, elle offre une efficacité énergétique 5 fois supérieure à celle des méthodes traditionnelles.

Intégration du plan de données

La mise en œuvre de cette architecture nécessite un changement dans la façon dont les équipes informatiques perçoivent les réseaux de stockage. La plate-forme ICMS s’appuie sur NVIDIA Spectrum-X Ethernet pour fournir la connectivité à large bande passante et à faible gigue requise pour traiter le stockage flash presque comme s’il s’agissait de mémoire locale.

Pour les équipes d’infrastructure d’entreprise, le point d’intégration est la couche d’orchestration. Des frameworks tels que NVIDIA Dynamo et Inference Transfer Library (NIXL) gèrent le mouvement des blocs KV entre les niveaux.

Ces outils se coordonnent avec la couche de stockage pour garantir que le contexte correct est chargé dans la mémoire GPU (G1) ou la mémoire hôte (G2) exactement lorsque le modèle d’IA l’exige. Le framework NVIDIA DOCA prend en charge cela en fournissant une couche de communication KV qui traite le cache de contexte comme une ressource de premier ordre.

Les principaux fournisseurs de stockage s’alignent déjà sur cette architecture. Des sociétés telles que AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data et WEKA construisent des plates-formes avec BlueField-4. Ces solutions devraient être disponibles au second semestre de cette année.

Redéfinir l’infrastructure pour faire évoluer l’IA agentique

L’adoption d’un niveau de mémoire contextuelle dédié a un impact sur la planification de la capacité et la conception du centre de données.

Reclassement des données : Les DSI doivent reconnaître le cache KV comme un type de données unique. Il s’agit de données « éphémères mais sensibles à la latence », distinctes des données de conformité « durables et froides ». Le niveau G3.5 gère le premier, permettant au stockage G4 durable de se concentrer sur les journaux et les artefacts à long terme.

Maturité de l’orchestration : Le succès dépend d’un logiciel capable de répartir intelligemment les charges de travail. Le système utilise une orchestration tenant compte de la topologie (via NVIDIA Grove) pour placer les tâches à proximité de leur contexte mis en cache, minimisant ainsi le mouvement des données à travers la structure.

Densité de puissance : En intégrant davantage de capacité utilisable dans le même encombrement de rack, les organisations peuvent prolonger la durée de vie des installations existantes. Cependant, cela augmente la densité de calcul par mètre carré, ce qui nécessite une planification adéquate du refroidissement et de la distribution d’énergie.

La transition vers l’IA agentique impose une reconfiguration physique du datacenter. Le modèle dominant consistant à séparer complètement le calcul du stockage lent et persistant est incompatible avec les besoins de récupération en temps réel des agents dotés de mémoires photographiques.

En introduisant un niveau de contexte spécialisé, les entreprises peuvent dissocier la croissance de la mémoire modèle du coût du GPU HBM. Cette architecture pour l’IA agentique permet à plusieurs agents de partager un énorme pool de mémoire à faible consommation afin de réduire le coût de traitement des requêtes complexes et accélère la mise à l’échelle en permettant un raisonnement à haut débit.

Alors que les organisations planifient leur prochain cycle d’investissement dans l’infrastructure, l’évaluation de l’efficacité de la hiérarchie de la mémoire sera aussi vitale que la sélection du GPU lui-même.