Comment l’économie de l’IA multi-agents influence l’automatisation des entreprises

La gestion économique de l’IA multi-agents dicte désormais la viabilité financière des flux de travail d’automatisation d’entreprise modernes.

Les organisations qui progressent au-delà des interfaces de discussion standard vers des applications multi-agents sont confrontées à deux contraintes principales. Le premier problème est la taxe sur la réflexion ; les agents autonomes complexes doivent raisonner à chaque étape, ce qui rend le recours à des architectures massives pour chaque sous-tâche trop coûteux et trop lent pour une utilisation pratique en entreprise.

L’explosion du contexte constitue le deuxième obstacle ; ces flux de travail avancés produisent jusqu’à 1 500 % de jetons en plus que les formats standard, car chaque interaction nécessite le renvoi de l’historique complet du système, un raisonnement intermédiaire et des sorties d’outils. Dans le cadre de tâches étendues, ce volume de jetons augmente les dépenses et provoque une dérive des objectifs, un scénario dans lequel les agents s’écartent de leurs objectifs initiaux.

Évaluation des architectures pour l’IA multi-agents

Pour surmonter ces obstacles en matière de gouvernance et d’efficacité, les développeurs de matériel et de logiciels proposent des outils hautement optimisés destinés directement à l’infrastructure de l’entreprise.

NVIDIA a récemment présenté Nemotron 3 Super, une architecture ouverte comportant 120 milliards de paramètres (dont 12 milliards restent actifs) spécialement conçue pour exécuter des systèmes d’IA agentiques complexes.

Disponible immédiatement, le framework de NVIDIA associe des fonctionnalités de raisonnement avancées pour aider les agents autonomes à terminer leurs tâches de manière efficace et précise pour une meilleure automatisation de l’entreprise. Le système s’appuie sur une architecture hybride composée d’experts combinant trois innovations majeures pour offrir un débit jusqu’à cinq fois supérieur et une précision deux fois supérieure à celle du modèle Nemotron Super précédent. Lors de l’inférence, seuls 12 milliards des 120 milliards de paramètres sont actifs.

Les couches Mamba fournissent quatre fois plus de mémoire et d’efficacité de calcul, tandis que les couches de transformateur standard gèrent les exigences de raisonnement complexes. Une technique latente améliore la précision en engageant quatre spécialistes experts pour le prix d’un lors de la génération du jeton. Le système anticipe également plusieurs mots futurs en même temps, multipliant par trois les vitesses d’inférence.

Fonctionnant sur la plateforme Blackwell, l’architecture utilise la précision NVFP4. Cette configuration réduit les besoins en mémoire et rend l’inférence jusqu’à quatre fois plus rapide que les configurations FP8 sur les systèmes Hopper, le tout sans sacrifier la précision.

Traduire la capacité d’automatisation en résultats commerciaux

Le système offre une fenêtre contextuelle d’un million de jetons, permettant aux agents de conserver l’intégralité de l’état du flux de travail en mémoire et de répondre directement au risque de dérive des objectifs. Un agent de développement logiciel peut charger simultanément une base de code entière dans son contexte, permettant ainsi la génération et le débogage de code de bout en bout sans nécessiter de segmentation de document.

Dans le cadre de l’analyse financière, le système peut charger des milliers de pages de rapports en mémoire, améliorant ainsi l’efficacité en supprimant le besoin de raisonner à nouveau au cours de longues conversations. L’appel d’outils de haute précision garantit que les agents autonomes naviguent de manière fiable dans d’énormes bibliothèques de fonctions, évitant ainsi les erreurs d’exécution dans des environnements à enjeux élevés tels que l’orchestration autonome de la sécurité au sein de la cybersécurité.

Les leaders du secteur, notamment Amdocs, Palantir, Cadence, Dassault Systèmes et Siemens, déploient et personnalisent le modèle pour automatiser les flux de travail dans les domaines des télécommunications, de la cybersécurité, de la conception de semi-conducteurs et de la fabrication.

Les plates-formes de développement de logiciels telles que CodeRabbit, Factory et Greptile l’intègrent aux modèles propriétaires pour obtenir une plus grande précision à moindre coût. Des entreprises des sciences de la vie comme Edison Scientific et Lila Sciences l’utiliseront pour alimenter des agents destinés à la recherche documentaire approfondie, à la science des données et à la compréhension moléculaire.

L’architecture propulse également l’agent AI-Q en première position dans les classements DeepResearch Bench et DeepResearch Bench II, soulignant sa capacité à effectuer des recherches en plusieurs étapes sur de grands ensembles de documents tout en maintenant la cohérence du raisonnement.

Enfin, le modèle a remporté la première place en matière d’analyse artificielle en termes d’efficacité et d’ouverture, avec une précision inégalée parmi les modèles de sa taille.

Mise en œuvre et alignement des infrastructures

Conçue pour gérer des sous-tâches complexes au sein de systèmes multi-agents, la flexibilité de déploiement reste une priorité pour les dirigeants en charge de l’automatisation des activités.

NVIDIA a publié le modèle avec des pondérations ouvertes sous une licence permissive, permettant aux développeurs de le déployer et de le personnaliser sur des postes de travail, des centres de données ou des environnements cloud. Il est présenté sous forme de microservice NVIDIA NIM pour faciliter ce large déploiement depuis les systèmes sur site vers le cloud.

L’architecture a été formée sur des données synthétiques générées par des modèles de raisonnement frontalier. NVIDIA a publié la méthodologie complète, comprenant plus de 10 000 milliards de jetons d’ensembles de données pré et post-formation, 15 environnements de formation pour l’apprentissage par renforcement et des recettes d’évaluation. Les chercheurs peuvent affiner davantage le modèle ou créer le leur à l’aide de la plateforme NeMo.

Tout dirigeant planifiant un déploiement de numérisation doit faire face à l’explosion du contexte et à la réflexion dès le départ pour éviter la dérive des objectifs et les dépassements de coûts dans les flux de travail agents. La mise en place d’une surveillance architecturale complète garantit que ces agents sophistiqués restent alignés sur les directives de l’entreprise, générant ainsi des gains d’efficacité durables et faisant progresser l’automatisation des activités dans toute l’organisation.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.