Le modèle d’IA d’Odyssey transforme la vidéo en mondes interactifs

AI Lab Lab Lab Lab, Odyssey, a lancé un aperçu de recherche d’un modèle transformant la vidéo en mondes interactifs. Se concentrant initialement sur les modèles mondiaux pour la production de films et de jeux, l’équipe Odyssey est tombée sur un support de divertissement potentiellement nouveau.

La vidéo interactive générée par le modèle d’IA d’Odyssey répond aux entrées en temps réel. Vous pouvez interagir avec lui en utilisant votre clavier, votre téléphone, votre contrôleur ou même les commandes vocales. Les gens d’Odyssey le présentent comme une «première version du Holodeck».

L’IA sous-jacente peut générer des cadres vidéo réalistes tous les 40 millisecondes. Cela signifie que lorsque vous appuyez sur un bouton ou faites un geste, la vidéo réagit presque instantanément – en créant l’illusion que vous influencez réellement ce monde numérique.

« L’expérience aujourd’hui a envie d’explorer un rêve glitchy – RAW, instable, mais indéniablement nouveau », selon Odyssey. Nous ne parlons pas de visuels polis et de qualité AAA ici, du moins pas encore.

Pas votre technologie vidéo standard

Soyons un peu techniques pendant un moment. Qu’est-ce qui rend cette technologie vidéo interactive générée par AI-AI différente, par exemple, un jeu vidéo standard ou un CGI? Tout se résume à quelque chose que Odyssey appelle un «modèle mondial».

Contrairement aux modèles vidéo traditionnels qui génèrent des clips entiers en une seule fois, les modèles mondiaux travaillent par trame pour prédire ce qui devrait venir en fonction de l’état actuel et des entrées utilisateur. C’est similaire à la façon dont les grands modèles de langage prédisent le mot suivant dans une séquence, mais infiniment plus complexe parce que nous parlons de cadres vidéo haute résolution plutôt que de mots.

«Un modèle mondial est, à la base, un modèle de dynamique conditionné par l’action», comme le dit Odyssey. Chaque fois que vous interagissez, le modèle prend l’état actuel, votre action et l’histoire de ce qui s’est passé, puis génère le cadre vidéo suivant en conséquence.

Le résultat est quelque chose qui semble plus organique et imprévisible qu’un jeu traditionnel. Il n’y a pas de logique pré-programmée disant «Si un joueur fait x, alors y arrive» – en place, l’IA fait de la meilleure estimation de ce qui devrait arriver ensuite en fonction de ce qu’il a appris en regardant d’innombrables vidéos.

Odyssey aborde les défis historiques avec une vidéo générée par l’IA

Construire quelque chose comme ça n’est pas exactement une promenade dans le parc. L’un des plus grands obstacles avec une vidéo interactive générée par l’IA est de le maintenir stable au fil du temps. Lorsque vous générez chaque trame en fonction des précédentes, les petites erreurs peuvent s’aggraver rapidement (un phénomène des chercheurs d’IA appellent «dérive»))

Pour y faire face, Odyssey a utilisé ce qu’ils appellent un «modèle de distribution étroit» – pré-formation essentiellement leur IA sur des séquences vidéo générales, puis en le réglant sur un ensemble plus petit d’environnements. Ce compromis signifie moins de variété mais une meilleure stabilité, donc tout ne devient pas un gâchis bizarre.

La société affirme qu’ils font déjà des «progrès rapides» sur leur modèle de nouvelle génération, qui montre apparemment «une gamme plus riche de pixels, de dynamiques et d’actions».

Exécuter toute cette technologie d’IA fantaisie en temps réel n’est pas bon marché. Actuellement, l’infrastructure alimentant cette expérience coûte entre 0,80 £ et 1,60 £ (1-2) par heure d’utilisateur, en s’appuyant sur des grappes de GPU H100 dispersées aux États-Unis et à l’UE.

Cela peut sembler cher pour le streaming vidéo, mais c’est remarquablement bon marché par rapport à la production de contenu de jeu ou de film traditionnel. Et Odyssey s’attend à ce que ces coûts tombent davantage à mesure que les modèles deviennent plus efficaces.

Vidéo interactive: le prochain support de narration?

Tout au long de l’histoire, les nouvelles technologies ont donné naissance à de nouvelles formes de narration – des peintures grottes aux livres, photographie, radio, cinéma et jeux vidéo. Odyssey pense que la vidéo interactive générée par l’AI est la prochaine étape de cette évolution.

S’ils ont raison, nous pourrions regarder le prototype de quelque chose qui transformera le divertissement, l’éducation, la publicité, etc. Imaginez de formation des vidéos où vous pouvez pratiquer les compétences enseignées ou des expériences de voyage où vous pouvez explorer les destinations de votre canapé.

L’aperçu de la recherche disponible maintenant n’est évidemment qu’un petit pas vers cette vision et plus une preuve de concept qu’un produit fini. Cependant, c’est un aperçu intrigant de ce qui pourrait être possible lorsque les mondes générés par l’IA deviennent des terrains de jeux interactifs plutôt que des expériences passives.

Vous pouvez essayer l’aperçu de la recherche ici.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.