Tencent Hunyuan Video-Foley apporte l’audio réaliste à l’IA vidéo

Une équipe du Hunyuan Lab de Tencent a créé une nouvelle IA, «Hunyuan Video-Foley», qui apporte enfin l’audio réaliste à la vidéo générée. Il est conçu pour écouter des vidéos et générer une bande sonore de haute qualité qui est parfaitement synchronisée avec l’action à l’écran.

Avez-vous déjà regardé une vidéo générée par l’AI et vous avions l’impression que quelque chose manquait? Les visuels peuvent être superbes, mais ils ont souvent un silence étrange qui brise le sort. Dans l’industrie cinématographique, le son qui remplit ce silence – le bruissement des feuilles, le clap de tonnerre, le tintement d’un verre – s’appelle Foley Art, et c’est un métier minutieux interprété par des experts.

Faire correspondre ce niveau de détail est un énorme défi pour l’IA. Pendant des années, les systèmes automatisés ont du mal à créer des sons crédibles pour les vidéos.

Comment Tencent résout-il l’audio généré par l’IA pour le problème vidéo?

L’une des principales raisons pour lesquelles les modèles vidéo-audio (V2A) ont souvent échoué dans le service du son était ce que les chercheurs appellent le «déséquilibre de la modalité». Essentiellement, l’IA écoutait davantage les invites de texte qu’elle a été données que de regarder la vidéo réelle.

Par exemple, si vous avez donné à un modèle une vidéo d’une plage animée avec des gens qui marchent et des mouettes volant, mais l’invite de texte a seulement dit «le son des vagues de l’océan», vous obtiendrez probablement le son des vagues. L’IA ignorerait complètement les pas dans le sable et les appels des oiseaux, ce qui rend la scène sans vie.

En plus de cela, la qualité de l’audio était souvent inférieure, et il n’y avait tout simplement pas assez de vidéo de haute qualité avec un son pour former les modèles efficacement.

L’équipe de Hunyuan de Tencent a résolu ces problèmes sous trois angles différents:

  1. Tencent a réalisé que l’IA avait besoin d’une meilleure éducation, ils ont donc construit une bibliothèque massive de 100 000 heures de descriptions vidéo, audio et texte pour qu’elle puisse apprendre. Ils ont créé un pipeline automatisé qui a filtré du contenu de faible qualité à partir d’Internet, en se débarrassant des clips avec de longs silences ou audio flou et compressé, garantissant l’IA appris du meilleur matériau possible.
  1. Ils ont conçu une architecture plus intelligente pour l’IA. Pensez-y comme enseigner le modèle à correctement multitâche. Le système accorde d’abord une attention incroyablement étroite à la liaison visuelle-Audio pour obtenir le moment juste, comme assortir le coup d’un pas au moment exact d’une chaussure frappe le trottoir. Une fois qu’il a le timing verrouillé, il intègre ensuite l’invite de texte pour comprendre l’humeur et le contexte global de la scène. Cette double approche garantit que les détails spécifiques de la vidéo ne sont jamais négligés.
  1. Pour garantir que le son était de haute qualité, ils ont utilisé une stratégie de formation appelée Alignement de représentation (REPA). C’est comme avoir un ingénieur audio expert en regardant constamment l’épaule de l’IA pendant sa formation. Il compare le travail de l’IA aux fonctionnalités d’un modèle audio pré-formé de qualité professionnelle pour le guider vers la production d’un son plus propre, plus riche et plus stable.

Les résultats parler son pour eux-mêmes

Lorsque Tencent a testé Hunyuan Video-Foley contre d’autres modèles d’IA principaux, les résultats audio étaient clairs. Ce n’était pas seulement que les mesures informatiques étaient meilleures; Les auditeurs humains ont constamment évalué sa production comme de meilleure qualité, mieux adapté à la vidéo et plus précisément.

Dans tous les domaines, l’IA a apporté des améliorations dans la création du son à l’écran, à la fois en termes de contenu et de calendrier. Les résultats sur plusieurs ensembles de données d’évaluation le soutiennent:

Le travail de Tencent aide à combler l’écart entre les vidéos silencieuses de l’IA et une expérience de vision immersive avec l’audio de qualité. Cela apporte la magie de l’art Foley au monde de la création de contenu automatisée, qui pourrait être une capacité puissante pour les cinéastes, les animateurs et les créateurs du monde entier.

Bannière de la série d'événements AI & Big Data Expo.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.