Aujourd’hui, avec le développement rapide de la technologie de l’IA, la technologie de génération vidéo a également fait des progrès significatifs. L'éditeur de Downcodes vous présentera Snap Video, un modèle innovant capable de générer automatiquement des vidéos de haute qualité grâce à des descriptions textuelles. Il brise le goulot d'étranglement de la technologie de génération vidéo traditionnelle et offre une expérience de création vidéo plus efficace, réaliste et évolutive. Snap Video réalise non seulement des percées technologiques, mais optimise également l'expérience utilisateur, offrant aux utilisateurs une commodité sans précédent dans la création vidéo.
À l’ère des médias numériques, la vidéo est devenue le principal moyen par lequel nous nous exprimons et partageons nos histoires. Mais la création de vidéos de haute qualité nécessite souvent des compétences spécialisées et un équipement coûteux. Désormais, avec Snap Video, il vous suffit de décrire la scène souhaitée avec du texte et la vidéo sera automatiquement générée.
Les modèles actuels de génération d’images ont démontré une qualité et une diversité remarquables. Inspirés par cela, les chercheurs ont commencé à appliquer ces modèles à la génération vidéo. Cependant, la forte redondance du contenu vidéo oblige à appliquer directement des modèles d'images au domaine de la génération vidéo, ce qui réduira l'authenticité, la qualité visuelle et l'évolutivité des actions.
Snap Video est un modèle centré sur la vidéo qui répond systématiquement à ces défis. Premièrement, il étend le cadre EDM pour prendre en compte les pixels redondants dans l'espace et dans le temps, prenant naturellement en charge la génération vidéo. Deuxièmement, il propose une nouvelle architecture basée sur un transformateur qui est 3,31 fois plus rapide en formation et 4,5 fois plus rapide en inférence que U-Net. Cela permet à Snap Video d'entraîner efficacement des modèles texte-vidéo avec des milliards de paramètres, d'obtenir pour la première fois des résultats de pointe et de générer des vidéos avec une qualité supérieure, une cohérence temporelle et une complexité de mouvement significative.
Points forts techniques :
Modélisation spatio-temporelle conjointe : Snap Video est capable de synthétiser des vidéos cohérentes avec des mouvements à grande échelle tout en conservant le contrôle sémantique des générateurs texte-vidéo à grande échelle.
Génération de vidéo haute résolution : un modèle en cascade en deux étapes est utilisé pour générer d'abord une vidéo basse résolution, puis effectuer un suréchantillonnage haute résolution pour éviter d'éventuels problèmes d'incohérence temporelle.
Architecture basée sur FIT : Snap Video utilise l'architecture FIT (Far-reaching Interleaved Transformers) pour réaliser une modélisation conjointe efficace de l'informatique spatio-temporelle en apprenant des représentations vidéo compressées.
Snap Video est évalué sur des ensembles de données largement adoptés tels que UCF101 et MSR-VTT, montrant des avantages particuliers dans la génération de qualité d'action. Les études d'utilisateurs montrent également que Snap Video surpasse les méthodes de pointe en termes d'alignement du texte vidéo, de nombre d'actions et de qualité.
L'article discute également d'autres efforts de recherche dans le domaine de la génération vidéo, notamment des méthodes basées sur des techniques de formation contradictoire ou de génération autorégressive, ainsi que des progrès récents dans l'utilisation de modèles de diffusion dans les tâches de génération de texte en vidéo.
Snap Video résout systématiquement les problèmes courants de processus et d'architectures de diffusion dans la génération texte-vidéo en traitant les vidéos comme des citoyens de première classe. Son cadre de diffusion EDM modifié proposé et son architecture basée sur FIT améliorent considérablement la qualité et l'évolutivité de la génération vidéo.
Adresse papier : https://arxiv.org/pdf/2402.14797
Dans l'ensemble, Snap Video a réalisé des réalisations remarquables dans le domaine de la génération texte-vidéo, et son architecture efficace et ses excellentes performances offrent de nouvelles possibilités pour la création vidéo future. L'éditeur de Downcodes estime que cette technologie aura un impact profond sur le domaine de la création vidéo.