L'éditeur de Downcodes vous fera comprendre la technologie Google ReCapture et comment cette technologie disruptive va changer le montage vidéo ! ReCapture permet aux utilisateurs ordinaires de réaliser facilement des ajustements de mouvement de caméra de niveau professionnel, de repenser le langage de l'objectif vidéo et d'apporter des changements révolutionnaires à la post-production vidéo. Cette technologie ne repose plus sur les méthodes de représentation intermédiaire 4D traditionnelles, mais utilise intelligemment la connaissance du mouvement des modèles vidéo génératifs pour transformer le montage vidéo en un processus de conversion vidéo en vidéo, simplifiant considérablement le processus d'exploitation et conservant les caractéristiques de la vidéo. et la qualité de l'image.
La dernière technologie ReCapture lancée par l'équipe de recherche de Google bouleverse la méthode de montage vidéo traditionnelle. Cette innovation permet aux utilisateurs ordinaires de mettre en œuvre facilement des ajustements de mouvement de caméra de niveau professionnel et de repenser le langage de l'objectif pour les vidéos déjà capturées.
Dans la post-production vidéo traditionnelle, changer l'angle de la caméra d'une vidéo capturée a toujours été un problème technique. Lorsque les solutions existantes gèrent différents types de contenu vidéo, il est souvent difficile de conserver simultanément des effets de mouvement de caméra complexes et des détails d'image. ReCapture adopte une approche différente et n'utilise pas la méthode de représentation intermédiaire 4D traditionnelle, mais utilise intelligemment les connaissances de mouvement stockées dans le modèle vidéo génératif et redéfinit la tâche comme un processus de conversion vidéo en vidéo via la diffusion vidéo stable.
Le système utilise un flux de travail en deux étapes. La première étape génère la vidéo d'ancrage, qui est la version de sortie initiale avec la nouvelle position de la caméra. Cette étape peut être réalisée en créant des vidéos multi-angles via des modèles de diffusion tels que CAT3D, ou par estimation de la profondeur image par image et rendu par nuage de points. Bien que cette version puisse présenter des incohérences temporelles et des défauts visuels, elle a jeté les bases de la phase deux.
La deuxième étape applique un réglage fin de la vidéo masquée, en exploitant un modèle vidéo génératif formé sur des séquences existantes pour créer des effets de mouvement et des changements de timing réalistes. Le système introduit une couche temporelle LoRA (Low Rank Adaptation) pour optimiser le modèle afin qu'il puisse comprendre et reproduire les caractéristiques dynamiques spécifiques des vidéos d'ancrage sans recycler l'intégralité du modèle. Dans le même temps, la couche spatiale LoRA garantit que les détails et le contenu de l’image sont cohérents avec le nouveau mouvement de la caméra. Cela permet au modèle vidéo génératif d'effectuer des opérations telles que le zoom, le panoramique et l'inclinaison tout en conservant le mouvement caractéristique de la vidéo originale.
Bien que ReCapture ait réalisé d’importants progrès en matière de traitement vidéo convivial, il en est encore au stade de la recherche et est encore loin d’une application commerciale. Il convient de noter que bien que Google ait de nombreux projets d'IA vidéo, il ne les a pas encore mis sur le marché. Parmi eux, le projet Veo est peut-être le plus proche d'une utilisation commerciale. De même, le modèle Movie-Gen récemment lancé par Meta et Sora d'OpenAI sorti au début de l'année n'ont pas encore été commercialisés. Actuellement, le marché de l’IA vidéo est principalement dominé par des startups telles que Runway, qui a lancé son dernier modèle Gen-3Alpha l’été dernier.
L'émergence de la technologie ReCapture annonce l'orientation future du développement dans le domaine du montage vidéo. Bien qu'elle soit encore au stade de la recherche, ses fonctions puissantes et ses méthodes de fonctionnement pratiques apporteront sans aucun doute plus de possibilités à la création vidéo. Nous attendons avec impatience la maturité précoce et l'application commerciale de cette technologie dans le futur, offrant une expérience de montage vidéo plus pratique et plus efficace à la majorité des utilisateurs.