Tencent AI Lab et ARC Lab de Tencent PCG ont publié conjointement un nouveau framework appelé StereoCrafter. Cette technologie peut convertir des vidéos 2D ordinaires en vidéos 3D stéréoscopiques haute fidélité, apportant des changements révolutionnaires à l'expérience immersive. StereoCrafter utilise une technologie d'apprentissage profond pour surmonter les limites des méthodes traditionnelles de conversion vidéo 3D, améliorer considérablement l'effet de génération et peut s'adapter aux exigences de haute fidélité de divers appareils d'affichage pour répondre à la demande croissante de contenu 3D.
Récemment, Tencent AI Lab et ARC Lab de Tencent PCG ont lancé conjointement un nouveau framework appelé StereoCrafter, capable de convertir des vidéos 2D ordinaires en vidéos 3D stéréoscopiques haute fidélité.
Cette innovation répond à la demande croissante de contenus 3D, notamment dans le domaine des expériences immersives. StereoCrafter exploite pleinement les avantages du modèle de base, surmonte les limites des méthodes de conversion traditionnelles, améliore considérablement l'effet de génération et garantit que le contenu généré peut répondre aux exigences de haute fidélité des divers appareils d'affichage.
Le cœur du système est divisé en deux étapes principales. La première étape consiste à remapper la vidéo en fonction des informations de profondeur, à extraire les informations d'occlusion et à effectuer une transformation vidéo en même temps. La deuxième étape consiste à réparer la vidéo stéréoscopique. Le système utilise comme base un modèle de diffusion vidéo stable pré-entraîné et introduit un protocole de réglage fin pour la tâche d'inpainting vidéo stéréoscopique. Afin de gérer des entrées vidéo de différentes longueurs et résolutions, l'équipe a également exploré des stratégies autorégressives et des techniques de traitement par découpage pour garantir que le système peut s'adapter de manière flexible à diverses conditions d'entrée.
Pour soutenir la formation, l’équipe a construit un pipeline de traitement de données sophistiqué qui a généré des ensembles de données à grande échelle et de haute qualité. Au cours du processus de construction de l'ensemble de données, l'équipe de recherche a sélectionné parmi un grand nombre de vidéos stéréoscopiques et généré la profondeur vidéo correspondante, transformé les informations vidéo et d'occlusion pour garantir que la vidéo de droite sert de véritable référence. Ces méthodes innovantes fournissent des solutions pratiques pour convertir des vidéos 2D en vidéos 3D, permettant à Apple Vision Pro et à d'autres appareils d'affichage 3D de présenter une expérience immersive plus excitante.
StereoCrafter n'est pas seulement une avancée technologique, il apporte également des changements potentiels dans la façon dont les médias numériques sont vécus, modifiant potentiellement la façon dont nous regardons et expérimentons le contenu numérique.
Entrée du projet : https://stereocrafter.github.io/
Points forts:
StereoCrafter utilise une nouvelle technologie pour convertir efficacement des vidéos 2D en vidéos 3D stéréoscopiques immersives.
Le système est divisé en deux étapes principales : la reconstruction vidéo en profondeur et la réparation vidéo stéréoscopique pour améliorer l'effet de génération.
L’équipe de recherche a construit des ensembles de données de haute qualité pour prendre en charge la formation des algorithmes et garantir la qualité des résultats.
L'émergence de StereoCrafter marque une avancée majeure dans la technologie de conversion vidéo 2D vers 3D. Son efficacité de conversion efficace et sa qualité de sortie haute fidélité enrichiront considérablement la création et la consommation de contenu 3D, offrant aux utilisateurs une expérience audiovisuelle plus immersive. À l’avenir, cette technologie devrait être largement utilisée dans les films, les jeux, la réalité virtuelle et d’autres domaines.