L'équipe GenAI de Meta a publié un nouveau modèle de génération vidéo à vidéo appelé Fairy qui surpasse considérablement les technologies existantes en termes de vitesse et de cohérence temporelle. Fairy réalise une synthèse vidéo haute fidélité grâce à un mécanisme innovant d'attention multi-images, augmentant la vitesse jusqu'à 44 fois. Il s’agit sans aucun doute d’une avancée majeure dans le domaine de la génération vidéo, offrant de nouvelles possibilités pour un montage et une création vidéo plus rapides et plus efficaces à l’avenir.
L'équipe GenAI de Meta a lancé un modèle de synthèse vidéo à vidéo appelé Fairy, qui est plus rapide et plus cohérent dans le temps que les modèles existants. Fairy utilise un mécanisme d'attention multi-images pour garantir une cohérence temporelle et une composition haute fidélité. Fairy est 44 fois plus rapide que le modèle précédent, mais a encore quelques problèmes à gérer les effets environnementaux dynamiques.
Bien que le modèle Fairy ait fait des percées en termes de vitesse, il reste encore place à l'amélioration lorsqu'il s'agit de scènes dynamiques complexes. À l’avenir, optimiser davantage la robustesse du modèle afin qu’il puisse mieux gérer diverses scènes vidéo complexes constituera une orientation importante pour l’équipe de recherche. Nous attendons avec impatience que le modèle Fairy soit encore amélioré dans les futures mises à jour pour offrir aux utilisateurs une expérience de génération vidéo plus parfaite.