La vidéo IA open source de Lightricks offre 4K, du son et un rendu plus rapide - Actualité sur le financement de l'innovation

Lightricks augmente la mise en matière de création et d’itération vidéo rapides avec son dernier modèle d’intelligence artificielle. La société affirme que son nouveau modèle de base LTX-2 peut générer du nouveau contenu plus rapidement que la vitesse de lecture, et qu’il place la barre plus haut en termes de résolution et de qualité.

Le LTX-2 open source peut générer une vidéo stylisée et haute définition de six secondes en seulement cinq secondes sans aucun compromis sur la qualité, permettant aux créateurs de diffuser du contenu professionnel beaucoup plus rapidement qu’auparavant.

C’est une réalisation impressionnante, mais ce n’est pas le seul paramètre qui distingue le LTX-2 des autres. Il combine la synthèse audio et vidéo native avec une transparence open source, et si les utilisateurs sont prêts à attendre quelques secondes de plus, ils peuvent améliorer leurs sorties jusqu’à une résolution 4K jusqu’à 48 images par seconde, indique la société. Mieux encore, les créateurs peuvent exécuter le logiciel sur des GPU grand public, réduisant ainsi considérablement leurs coûts de calcul.

Les modèles de diffusion arrivent à maturité

LTX-2 est ce qu’on appelle un modèle de diffusion, qui fonctionne en ajoutant progressivement du « bruit » au contenu généré, puis en réduisant ce bruit jusqu’à ce que la sortie ressemble aux ressources vidéo sur lesquelles le modèle a été formé.

Avec LTX-2, Lightricks a accéléré le processus de diffusion, afin que les créateurs puissent réitérer leurs idées en produisant des aperçus en direct presque instantanément. Le modèle est également capable de générer simultanément un son d’accompagnement – qu’il s’agisse d’une bande sonore, d’un dialogue ou d’effets sonores ambiants – accélérant considérablement les flux de travail créatifs.

C’est un gros problème, car auparavant, les créateurs auraient dû créer n’importe quel audio séparément de la vidéo, puis passer du temps à les assembler et à s’assurer qu’il y avait une synchronisation parfaite. Les modèles Veo de Google ont été célébrés pour leur puissante intégration de génération de son synchronisé, de sorte que ces nouvelles capacités de LTX servent à renforcer l’idée que la technologie de Lightricks est à la pointe de la technologie.

En ce qui concerne les options d’accès, Lightricks offre toujours aux créateurs une grande flexibilité avec LTX-2. La plate-forme phare de la société, LTX Studio, s’adresse aux professionnels qui, dans certains cas, sont prêts à sacrifier une certaine vitesse pour créer des vidéos de la plus haute qualité. Avec les taux de traitement légèrement plus lents qui en résulteront, ils seront capables de produire des vidéos en résolution native 4K jusqu’à 48 ips, créant ainsi le même niveau attendu pour les productions cinématographiques, affirme Lightricks.

La plateforme offre une large gamme de contrôles créatifs, affectant les paramètres personnalisables du modèle. Plus de détails à ce sujet seront annoncés prochainement, mais devraient inclure les contrôles de pose et de profondeur, la génération vidéo à vidéo et les alternatives de rendu – gardez un œil sur une date de sortie, plus tard cet automne.

Zeev Farbman, cofondateur et directeur général de Lightricks, estime que les capacités améliorées du LTX-2 illustrent à quel point les modèles de diffusion arrivent enfin à maturité. Il a déclaré dans un communiqué que LTX-2 est : « Le moteur d’IA créatif le plus complet que nous ayons jamais construit, combinant audio et vidéo synchronisés, fidélité 4K, flux de travail flexibles et efficacité radicale. »

« Il ne s’agit pas d’un vaporware ou d’une démo de recherche », a-t-il déclaré. « C’est une véritable avancée dans la génération vidéo. »

Une étape majeure

Avec LTX-2, Lightricks démontre qu’il est à la pointe de la génération vidéo IA, la plate-forme s’appuyant sur un certain nombre de premières industrielles dans les modèles LTXV précédents.

En juillet, la famille de modèles LTXV de la société, notamment les LTXV-2B et LTXV-13B, est devenue la première à prendre en charge la génération vidéo longue durée, suite à une mise à jour étendant la sortie jusqu’à 60 secondes. Grâce à cela, la production vidéo IA est devenue « véritablement dirigée », les utilisateurs pouvant commencer avec une invite initiale et ajouter d’autres invites en temps réel pendant que la vidéo était diffusée en direct.

Le LTXV-13B avait déjà la réputation d’être l’un des modèles de création vidéo les plus puissants du marché, avant même cette mise à jour d’une minute. Lancée en mai, il s’agissait de la première plate-forme du secteur à prendre en charge le rendu multi-échelle, qui permettait aux utilisateurs d’améliorer progressivement leurs vidéos en invitant le modèle à ajouter plus de couleurs et de détails, étape par étape, de la même manière que les animateurs professionnels « superposent » des détails supplémentaires à leur travail dans les processus de production traditionnels.

Le modèle 13B a été formé sur des données sous licence de Getty et Shutterstock. Les partenariats de l’entreprise avec ces géants du contenu sont importants, non seulement pour la qualité des données de formation, mais aussi pour des raisons éthiques ; Les résultats des modèles sont beaucoup moins problématiques en termes de droits d’auteur, un problème qui affecte de nombreuses autres créations de modèles d’IA.

Lightricks a également publié une version distillée du LTXV-13B qui simplifie et accélère le processus de diffusion, ce qui signifie que le contenu peut être généré en seulement quatre à huit étapes. La version distillée prend également en charge les LoRA, ce qui signifie qu’elle peut être ajustée par les utilisateurs pour créer un contenu plus adapté au style esthétique d’un projet.

Modèles de facturation innovants

Comme ces modèles précédents, le LTX-2 sera publié sous une licence open source, ce qui en fera une alternative viable à la série de modèles Wan2 d’Alibaba. Lightricks a souligné qu’il s’agit d’un modèle véritablement open source, par opposition à un simple « accès libre », ce qui signifie que ses poids, ensembles de données et tous les outils pré-entraînés seront disponibles sur GitHub, aux côtés du modèle lui-même.

LTX-2 est désormais disponible pour les utilisateurs dans LTX Studio et via son API, la version open source devant être publiée en novembre.

Pour ceux qui préfèrent utiliser la version payante via API, Lightricks propose une tarification flexible, avec des coûts commençant à seulement 0,04 $ par seconde pour une version qui génère des vidéos HD en seulement cinq secondes. La version Pro équilibre vitesse et performances, et ici, les prix commencent à 0,07 $ par seconde. La version Ultra coûte 0,12 $ par seconde pour la génération vidéo en résolution 4K à 48 ips, plus un son pleine fidélité. Les prix varient également en fonction de la résolution, les utilisateurs pouvant choisir entre 720p, 1080p, 2K et 4K.

Lightricks affirme que grâce à l’efficacité du traitement du modèle, son prix rend le LTX-2 jusqu’à 50 % moins cher que les modèles concurrents, ce qui rend les projets étendus plus viables économiquement, tout en offrant une itération plus rapide et une qualité supérieure à celle des générations précédentes. Alternativement, les utilisateurs pourront utiliser le modèle en téléchargeant la version open source et en l’exécutant sur des GPU grand public après son arrivée sur GitHub le mois prochain.

Source de l’image : Unsplash