Les chercheurs développent un nouveau cadre qui peut créer des champs de rayonnement neuronal nets à partir de vidéos monoculaires floues, capturées à partir d’appareils portables quotidiens
Les champs de radiance neuronale (NERF) sont une technique fascinante qui crée des représentations tridimensionnelles (3D) d’une scène à partir d’un ensemble d’images bidimensionnelles (2D), capturées sous différents angles. Il fonctionne en formant un réseau neuronal profond pour prédire la couleur et la densité à tout moment dans l’espace 3D. Pour ce faire, il lance les rayons lumineux imaginaires de l’appareil photo à travers chaque pixel dans toutes les images d’entrée, les points d’échantillonnage le long de ces rayons avec leurs coordonnées 3D et leur direction de vision. En utilisant ces informations, NERF reconstruit la scène en 3D et peut les rendre à partir de perspectives entièrement nouvelles, un processus connu sous le nom de nouvelle synthèse de vue (NVS).
Au-delà des images fixes, une vidéo peut également être utilisée, chaque trame de la vidéo traitée comme une image statique. Cependant, les méthodes existantes sont très sensibles à la qualité des vidéos. Les vidéos capturées avec une seule caméra, comme celles d’un téléphone ou d’un drone, souffrent inévitablement d’un flou de mouvement causée par un mouvement d’objet rapide ou un shake de la caméra. Cela rend difficile la création de NV net et dynamiques. En effet, la plupart des méthodes NVS basées sur le déblurage existantes sont conçues pour les images multi-visualités statiques, qui ne tiennent pas compte de la caméra globale et du mouvement d’objet local. De plus, des vidéos floues conduisent souvent à des estimations de pose de caméra inexactes et à la perte de précision géométrique.
Pour résoudre ces problèmes, une équipe de recherche dirigée conjointement par le professeur adjoint Jihyong OH de la Graduate School of Advanced Imaging Science (GSIAM) de l’Université Chung-Ang (CAU) en Corée, et le professeur Munchurl Kim de Corée Advanced Institute of Science and Technology (Kaist), Corée, avec M. Minh-Quan Viet Bui, M. Jongmin Park, a développé MOBLURF, Minh-Quan Viet Bui, M. Jongmin Park, MOBLUR Nerfs. «Notre cadre est capable de reconstruire des scènes 4D nettes et d’activer les NV à partir de vidéos monoculaires floues en utilisant la décomposition de mouvement, tout en évitant la supervision du masque, faisant progresser considérablement le champ NERF, » explique le Dr Oh. Leur étude a été mise à disposition en ligne le 28 mai 2025 et a été publiée dans le volume 47, numéro 09 de la Transactions IEEE sur l’analyse des modèles et l’intelligence machine le 01 septembre 2025.
MOBLURF se compose de deux étapes principales: l’initialisation des rayons de base (BRI) et le déblurage basé sur la décomposition (MDD). Les méthodes NVS basées sur le déblure existantes tentent de prédire les rayons de lumière pointus cachés dans des images floues, appelées rayons tranchants latents, en transformant un rayon appelé le rayon de base. Cependant, l’utilisation directe des rayons d’entrée dans des images floues car les rayons de base peuvent entraîner une prédiction inexacte. BRI aborde ce problème en reconstruisant à peu près les scènes 3D dynamiques à partir de vidéos floues et en affinant l’initialisation des «rayons de base» à partir des rayons de caméra imprécis.
Ensuite, ces rayons de base sont utilisés au stade MDD pour prédire avec précision les rayons pointus latents par le biais d’une méthode incrémentale de prédiction des rayons tranchants latentes (ILSP). L’ILSP décompose progressivement le flou du mouvement dans le mouvement mondial de la caméra et les composants de mouvement des objets locaux, améliorant considérablement la précision de la déblugure. Moblurf introduit également deux nouvelles fonctions de perte, une qui sépare les régions statiques et dynamiques sans masques de mouvement, et une autre qui améliore la précision géométrique des objets dynamiques, deux domaines où les méthodes précédentes ont lutté.
En raison de cette conception innovante, Moblurf surpasse les méthodes de pointe avec des marges significatives dans divers ensembles de données, à la fois quantitativement et qualitativement. Il est également robuste contre divers degrés de flou.
«En permettant la déblurage et la reconstruction 3D à partir de captures portables occasionnelles, notre cadre permet aux smartphones et à d’autres appareils de consommation de produire un contenu plus net et plus immersif,« Remarques Dr OH. »Cela pourrait également aider à créer des modèles 3D croquants de séquences tremblantes à partir de musées, à améliorer la compréhension de la scène et la sécurité pour les robots et les drones, et réduire le besoin de configurations de capture spécialisées dans la réalité virtuelle et augmentée. »
Moblurf marque une nouvelle direction pour les nerfs, permettant des reconstructions 3D de haute qualité à partir de vidéos floues ordinaires enregistrées avec des appareils quotidiens.
***
Doi: https://doi.org/10.1109/tpami.2025.3574644
L’université de Chung-Ang est une université de recherche privée de premier plan à Séoul, en Corée du Sud, dédiée à la façonner les dirigeants mondiaux pour un monde en évolution. Fondée en 1916 et atteignant le statut universitaire en 1953, il combine la tradition académique avec un fort engagement envers l’innovation. Entièrement accrédité par le ministère de l’Éducation, la CAU excelle dans des domaines tels que la pharmacie, la médecine, l’ingénierie et les sciences appliquées, stimulant les découvertes impactantes et les progrès technologiques. Son environnement à forte intensité de recherche favorise la collaboration et l’excellence, produisant des universitaires et des professionnels qui dirigent leurs disciplines. Engagé dans l’engagement mondial, la CAU continue d’étendre son influence en tant que plaque tournante pour l’avancement scientifique et l’éducation future.
Site Web: https://neweng.cau.ac.kr/index.do
Le Dr Jihyong Oh est professeur adjoint au Département des sciences de l’imagerie, de la Graduate School of Advanced Imaging Science, Multimedia & Film (GSAIM) à l’Université de Chung-Ang (CAU; Séoul, Corée du Sud), et a dirigé le Creative Vision and Multimedia Lab (https://cmlab.cau.ac.kr/) depuis 2023. à Kaist (Daejeon, Corée du Sud). Il a reçu son être, moi et un doctorat. Degrés en génie électrique de Kaist en 2017, 2019 et 2023, respectivement. Ses recherches se concentrent principalement sur la vision de bas niveau, la restauration d’images / vidéo, la vision 3D et l’IA générative. Il a publié des articles chez CVPR, ICCV, ECCV, AAAI, Tpami, Tcsvt, Neurocomputinget Télédétectionet sert de critique pour ces conférences et revues, ainsi que pour Siggraph et IEEE TPAMI, CONSEIL, Tgrs, Tmm et Accéder. Il a reçu des récompenses en cours d’examen pour l’ICCV 2021 et le CVPR 2024.
Site Web: https://scholarworks.bwise.kr/cau/researcher-profile?ep=1528
Sungki Shin
Université Chung-Ang
shinsk@cau.ac.kr
Bureau: 02-820-6614