Construire une IA physique avec des données de simulation virtuelle - Actualité sur le financement de l'innovation

Les données de simulation virtuelle stimulent le développement de l’IA physique dans les environnements d’entreprise, mené par des initiatives telles que MolmoBot d’Ai2.

Historiquement, demander au matériel d’interagir avec le monde réel reposait sur des démonstrations très coûteuses et collectées manuellement. Les fournisseurs de technologies qui construisent des agents de manipulation généralistes définissent généralement une formation approfondie dans le monde réel comme base de ces systèmes.

Dans un certain contexte, des projets comme DROID incluent 76 000 trajectoires téléopérées rassemblées dans 13 institutions, ce qui représente environ 350 heures d’effort humain. Le RT-1 de Google DeepMind a nécessité 130 000 épisodes collectés sur 17 mois par des opérateurs humains. Cette dépendance à l’égard d’une collecte de données manuelle et exclusive gonfle les budgets de recherche et concentre les capacités au sein d’un petit groupe de laboratoires industriels dotés de ressources suffisantes.

« Notre mission est de créer une IA qui fasse progresser la science et élargit ce que l’humanité peut découvrir », a déclaré Ali Farhadi, PDG d’Ai2. « La robotique peut devenir un instrument scientifique fondamental, aidant les chercheurs à avancer plus rapidement et à explorer de nouvelles questions. Pour y parvenir, nous avons besoin de systèmes qui se généralisent dans le monde réel et d’outils sur lesquels la communauté mondiale de la recherche peut s’appuyer ensemble. Démontrer le transfert de la simulation à la réalité est une étape significative dans cette direction. »

Des chercheurs de l’Allen Institute for AI (Ai2) proposent un modèle économique différent avec MolmoBot, une suite de modèles de manipulation robotique ouverte entièrement formée sur des informations synthétiques. En générant des trajectoires de manière procédurale au sein d’un système appelé MolmoSpaces, l’équipe contourne le besoin de téléopération humaine.

L’ensemble de données qui l’accompagne, MolmoBot-Data, contient 1,8 million de trajectoires de manipulation d’experts. Cette collection a été produite en combinant le moteur physique MuJoCo avec une randomisation de domaine agressive, des objets, des points de vue, un éclairage et une dynamique variables.

« La plupart des approches tentent de combler l’écart entre la simulation et le réel en ajoutant davantage de données du monde réel », a déclaré Ranjay Krishna, directeur de l’équipe PRIOR chez Ai2. « Nous avons fait le pari inverse : que l’écart se réduit lorsque vous augmentez considérablement la diversité des environnements, des objets et des conditions de caméra simulés. Notre dernière avancée déplace les contraintes de la robotique de la collecte de démonstrations manuelles vers la conception de meilleurs mondes virtuels, et c’est un problème que nous pouvons résoudre. »

Générer des données de simulation virtuelle pour l’IA physique

En utilisant 100 GPU Nvidia A100, le pipeline a créé environ 1 024 épisodes par heure GPU, ce qui équivaut à plus de 130 heures d’expérience robot pour chaque heure d’horloge murale.

Par rapport à la collecte de données réelles, cela représente près de quatre fois le débit de données, ce qui a un impact direct sur le retour sur investissement du projet en accélérant les cycles de déploiement.

La suite MolmoBot comprend trois classes de politiques distinctes évaluées sur deux plates-formes : le manipulateur mobile Rainbow Robotics RB-Y1 et le bras de table Franka FR3. Le modèle principal, construit sur une base de langage de vision Molmo2, traite plusieurs pas de temps d’observations RVB et d’instructions linguistiques pour dicter les actions.

Flexibilité matérielle avec MolmoBot d’Ai2

Pour les environnements informatiques de pointe où les ressources sont limitées, les chercheurs proposent MolmoBot-SPOC, une politique de transformation légère avec moins de paramètres. MolmoBot-Pi0 utilise un squelette PaliGemma pour correspondre à l’architecture du modèle π0 de Physical Intelligence, permettant des comparaisons directes de performances.

Lors des tests physiques, ces politiques ont démontré un transfert zéro vers des tâches du monde réel impliquant des objets et des environnements invisibles sans aucun réglage précis.

Lors des évaluations de sélection et de placement sur table, le modèle principal MolmoBot a atteint un taux de réussite de 79,2 %. Cela a surpassé π0,5, un modèle formé sur de nombreuses données de démonstration du monde réel, qui a atteint un taux de réussite de 39,2 %. Pour la manipulation mobile, les politiques ont exécuté avec succès des tâches telles que s’approcher, saisir et tirer des portes dans toute leur amplitude de mouvement.

La fourniture de ces architectures variées permet aux organisations d’intégrer des systèmes d’IA physiques performants sans être enfermées dans un écosystème de fournisseur unique ou dans une infrastructure de collecte de données étendue.

La version ouverte de l’ensemble de la pile MolmoBot – y compris les données de formation, les pipelines de génération et les architectures de modèles – permet un audit et une adaptation internes. Quiconque explore l’IA physique peut tirer parti de ces outils ouverts pour simuler et créer des systèmes performants tout en contrôlant les coûts.

« Pour que l’IA fasse réellement progresser la science, les progrès ne peuvent pas dépendre de données fermées ou de systèmes isolés », poursuit Ali Farhadi, PDG d’Ai2. « Cela nécessite une infrastructure partagée sur laquelle les chercheurs du monde entier peuvent s’appuyer, tester et améliorer ensemble. C’est ainsi que nous pensons que l’IA physique progressera. »