Meta révèle une IA générative pour des mondes 3D interactifs - Actualité sur le financement de l'innovation

Avec son système WorldGen, Meta fait évoluer l’utilisation de l’IA générative pour les mondes 3D de la création d’images statiques vers des actifs entièrement interactifs.

Le principal goulot d’étranglement dans la création d’expériences informatiques spatiales immersives – qu’il s’agisse de jeux grand public, de jumeaux numériques industriels ou de simulations de formation des employés – a longtemps été la nature exigeante en main-d’œuvre de la modélisation 3D. La production d’un environnement interactif nécessite généralement des équipes d’artistes spécialisés travaillant pendant des semaines.

WorldGen, selon un nouveau rapport technique de Meta’s Reality Labs, est capable de générer des mondes 3D traversables et interactifs à partir d’une seule invite de texte en cinq minutes environ.

Bien que la technologie soit actuellement de niveau recherche, l’architecture WorldGen résout des problèmes spécifiques qui ont empêché l’IA générative d’être utile dans les flux de travail professionnels : interactivité fonctionnelle, compatibilité des moteurs et contrôle éditorial.

Les environnements d’IA générative deviennent des mondes 3D véritablement interactifs

Le principal défaut de nombreux modèles texte-3D existants est qu’ils donnent la priorité à la fidélité visuelle plutôt qu’à la fonction. Des approches telles que les éclaboussures gaussiennes créent des scènes photoréalistes qui semblent impressionnantes dans une vidéo, mais qui manquent souvent de la structure physique sous-jacente requise pour qu’un utilisateur puisse interagir avec l’environnement. Les actifs dépourvus de données de collision ou de physique des rampes n’ont que peu ou pas de valeur pour la simulation ou les jeux.

WorldGen s’écarte de cette voie en privilégiant la « traversabilité ». Le système génère un maillage de navigation (navmesh) – un maillage polygonal simplifié qui définit les surfaces praticables – parallèlement à la géométrie visuelle. Cela garantit qu’une invite telle que « village médiéval » produit non seulement un ensemble de maisons, mais une disposition spatialement cohérente où les rues sont dégagées de tout obstacle et les espaces ouverts sont accessibles.

Pour les entreprises, cette distinction est vitale. Un jumeau numérique d’une usine ou une simulation de formation à la sécurité pour les environnements dangereux nécessite des données physiques et de navigation valides.

L’approche de Meta garantit que le résultat est « prêt pour le moteur de jeu », ce qui signifie que les actifs peuvent être exportés directement vers des plates-formes standard telles que Unity ou Unreal Engine. Cette compatibilité permet aux équipes techniques d’intégrer des flux de travail génératifs dans les pipelines existants sans avoir besoin de matériel de rendu spécialisé qu’exigent souvent d’autres méthodes, telles que les champs de radiance.

La ligne de production en quatre étapes de WorldGen

Les chercheurs de Meta ont structuré WorldGen comme un pipeline d’IA modulaire qui reflète les flux de travail de développement traditionnels pour créer des mondes 3D.

Le processus commence par la planification de la scène. Un LLM agit en tant qu’ingénieur en structure, analysant l’invite textuelle de l’utilisateur pour générer une présentation logique. Il détermine l’emplacement des structures clés et des caractéristiques du terrain, produisant un « blockout » – une esquisse 3D grossière – qui garantit que la scène a un sens physique.

La phase suivante de « reconstruction de scène » construit la géométrie initiale. Le système conditionne la génération sur le navmesh, garantissant que lorsque l’IA « hallucine » les détails, elle ne place pas par inadvertance un rocher dans une porte ou ne bloque pas une sortie de secours.

La « décomposition des scènes », la troisième étape, est peut-être la plus pertinente pour la flexibilité opérationnelle. Le système utilise une méthode appelée AutoPartGen pour identifier et séparer les objets individuels dans la scène, en distinguant un arbre du sol ou une caisse du sol d’un entrepôt.

Dans de nombreux modèles génératifs « à plan unique », la scène est un seul morceau de géométrie fusionné. En séparant les composants, WorldGen permet aux éditeurs humains de déplacer, supprimer ou modifier des actifs spécifiques après la génération sans détruire le monde entier.

Pour la dernière étape, « l’amélioration de la scène » peaufine les atouts. Le système génère des textures haute résolution et affine la géométrie des objets individuels pour garantir la qualité visuelle lors de la proximité.

Réalisme opérationnel de l’utilisation de l’IA générative pour créer des mondes 3D

La mise en œuvre d’une telle technologie nécessite une évaluation de l’infrastructure actuelle. Les sorties de WorldGen sont des maillages texturés standard. Ce choix évite le blocage du fournisseur associé aux techniques de rendu propriétaires. Cela signifie qu’une entreprise de logistique créant un module de formation VR pourrait théoriquement utiliser cet outil pour prototyper rapidement des mises en page, puis les confier à des développeurs humains pour les affiner.

La création d’une scène entièrement texturée et navigable prend environ cinq minutes avec un matériel suffisant. Pour les studios ou les départements habitués à des délais d’exécution de plusieurs jours pour le blocage d’environnements de base, ce gain d’efficacité change littéralement le monde.

Cependant, la technologie présente des limites. L’itération actuelle repose sur la génération d’une vue de référence unique, ce qui limite l’échelle des mondes qu’elle peut produire. Il ne peut pas encore générer nativement des mondes ouverts tentaculaires s’étendant sur des kilomètres sans assembler plusieurs régions, ce qui risque d’incohérences visuelles.

Le système représente également actuellement chaque objet indépendamment sans réutilisation, ce qui pourrait entraîner des inefficacités de mémoire dans de très grandes scènes par rapport aux ressources optimisées manuellement où un seul modèle de chaise est répété cinquante fois. Les itérations futures visent à répondre à des tailles mondiales plus grandes et à une latence plus faible.

Comparaison de WorldGen avec d’autres technologies émergentes

L’évaluation de cette approche par rapport à d’autres technologies d’IA émergentes pour créer des mondes 3D offre de la clarté. World Labs, un concurrent dans le domaine, utilise un système appelé Marble qui utilise des éclaboussures gaussiennes pour atteindre un photoréalisme élevé. Bien que visuellement frappantes, ces scènes basées sur les éclaboussures se dégradent souvent en qualité lorsque la caméra s’éloigne du centre et peuvent perdre en fidélité à seulement 3 à 5 mètres du point de vue.

Le choix de Meta de produire une géométrie basée sur un maillage positionne WorldGen comme un outil de développement d’applications fonctionnelles plutôt que de simple création de contenu visuel. Il prend en charge de manière native la physique, les collisions et la navigation, des fonctionnalités non négociables pour les logiciels interactifs. Par conséquent, WorldGen peut générer des scènes s’étendant sur 50 × 50 mètres tout en conservant l’intégrité géométrique.

Pour les leaders des secteurs de la technologie et de la création, l’arrivée de systèmes comme WorldGen apporte de nouvelles possibilités passionnantes. Les organisations doivent auditer leurs flux de travail 3D actuels pour identifier les domaines dans lesquels le « blocage » et le prototypage absorbent le plus de ressources. Il est préférable de déployer les outils génératifs ici pour accélérer les itérations, plutôt que de tenter de remplacer immédiatement la production de qualité finale.

Parallèlement, les artistes techniques et les concepteurs de niveaux devront passer du placement manuel de chaque sommet à l’invite et à la conservation des sorties de l’IA. Les programmes de formation devraient se concentrer sur « l’ingénierie rapide pour l’agencement spatial » et l’édition d’actifs générés par l’IA pour les mondes 3D. Enfin, même si le résultat est standard, le processus de génération nécessite beaucoup de calcul. L’évaluation des capacités de rendu sur site par rapport au cloud sera nécessaire pour l’adoption.

La 3D générative sert mieux de multiplicateur de force pour la disposition structurelle et la population d’actifs plutôt que de remplacement total de la créativité humaine. En automatisant le travail fondamental de construction d’un monde, les équipes d’entreprise peuvent concentrer leurs budgets sur les interactions et la logique qui génèrent la valeur commerciale.