Meta s'est associé à l'Université de technologie du roi Abdullah (KAUST) en Arabie saoudite pour lancer une nouvelle série de modèles de diffusion vidéo appelés Mardini. Ce modèle peut effectuer efficacement une variété de tâches de génération de vidéos, notamment l'interpolation vidéo, la conversion d'image-vidéo et l'expansion vidéo, simplifiant considérablement le processus de création vidéo de haute qualité. Mardini utilise une combinaison de modèles de planification et de modèles génératifs pour générer des vidéos de haute qualité avec moins d'étapes à travers les méthodes d'autorégression du masque (MAR) et les processus de diffusion, montrant des avantages importants en matière de performance et d'efficacité, fournissant aux créateurs de vidéos avec des outils puissants et définissent de nouveaux benchmarks de l'industrie.
Sur la base de l'année dernière, Meta a encore fait des efforts dans le domaine de la génération de vidéos d'IA. Auparavant, il a lancé des modèles de texte à vidéo et d'édition tels que EMU Video et EMU Edit. Cette année, le film avancé du film de rédacteur vidéo a également été lancé. Cela montre que Meta s'engage à fournir aux créateurs de vidéos des outils plus puissants.
La puissance de Mardini est qu'elle peut générer des vidéos basées sur n'importe quel nombre de trames masquées, et prend en charge une variété de tâches de génération, telles que l'interpolation vidéo, la conversion d'image-vidéo et d'expansion vidéo.
Résultats de l'image à la vidéoParmi eux, la principale application de Mardini est la génération d'image à vidéo. Cette fonction est démontrée en utilisant un cadre de référence placé au milieu comme entrée conditionnelle et en générant 16 images supplémentaires. Dans l'exemple vidéo généré officiel, 17 images rendues à 8 images par seconde peuvent être générées pour une vidéo fluide de 2 secondes.
Résultats de l'extension vidéoMardini vous permet également d'élargir votre vidéo en ajustant les vidéos existantes pendant un certain temps. Nous ajoutons 12 nouvelles trames à chaque séquence en générant une extension de 2 secondes à partir d'une vidéo de référence à 5 trames.
Résultats de l'interpolation vidéoMardini implémente l'interpolation vidéo en générant des trames intermédiaires en utilisant les premiers et derniers trames comme signaux de réglage. Lorsque ces cadres limites sont les mêmes, Mardini peut créer des vidéos en boucle transparente.
Le fonctionnement de Mardini est très intéressant. Il adopte une technologie de génération de vidéos avancée et efficace, principalement composée de deux parties: modèle de planification et modèle génératif. Tout d'abord, le modèle de planification utilise la méthode Mask Autoregression (MAR) pour interpréter les trames d'entrée à basse résolution, générant des signaux de guidage pour les cadres qui doivent être créés. Le modèle génératif léger génère ensuite des cadres détaillés à haute résolution à travers le processus de diffusion, garantissant que la vidéo finale est lisse et visuellement bonne.
Contrairement à de nombreux modèles vidéo qui nécessitent des modèles d'images pré-formés complexes, Mardini prétend être formé à partir de zéro à l'aide de données vidéo non marquées. En effet, il adopte une stratégie de formation progressive, qui permet au modèle de mieux faire face à différentes configurations de trame en ajustant de manière flexible la méthode de masquage des cadres pendant la formation.
Une caractéristique distinctive du mardini est sa flexibilité et ses performances. Il est non seulement puissant mais aussi efficace, adapté aux tâches plus grandes. Ce modèle peut gérer une variété de tâches telles que l'interpolation vidéo, la génération d'image à vidéo et l'expansion vidéo, qu'il s'agisse de lisser les clips vidéo existants ou de créer une séquence complète à partir de zéro.
En termes de performances, Mardini définit de nouvelles repères pour générer une vidéo de haute qualité avec moins d'étapes, ce qui le rend plus coûteux et temps que des alternatives plus complexes. "Nos recherches montrent que notre stratégie de modélisation démontre la compétitivité dans une variété de références d'interpolation et d'animation, tout en réduisant la demande de calcul à des échelles de paramètres comparables", a noté le document de recherche officiel.
Entrée du projet: https://mardini-vidgen.github.io/
Points clés:
Mardini est un modèle de génération de vidéos de nouvelle génération lancé par Meta et Kaust, qui peut facilement effectuer une variété de tâches de création vidéo.
Ce modèle réalise une interpolation vidéo efficace et une génération d'image à vidéo grâce à la combinaison de modèles de planification et de génération.
Mardini génère des vidéos de haute qualité avec moins d'étapes, améliorant considérablement la flexibilité et l'efficacité de la création.
En bref, l'émergence de Mardini marque une avancée significative dans la technologie de génération de vidéos, avec ses performances efficaces et ses scénarios d'application flexibles apportant de nouvelles possibilités dans le domaine de la création vidéo. À l'avenir, Mardini pourrait jouer un plus grand rôle dans la production cinématographique, la production d'animation et d'autres domaines qui nécessitent une génération vidéo.