Alibaba publie le modèle vidéo de génération d'images open source I2VGen-XL

Auteur：Eve Cole Date de mise à jour：2025-01-14 08:00:02

Alibaba a publié le modèle vidéo de génération d'images I2VGen-XL en novembre, et son code et son modèle sont enfin officiellement open source. Le modèle utilise une méthode de traitement en deux étapes. La première étape garantit la cohérence sémantique et la deuxième étape améliore les détails et la résolution de la vidéo en intégrant du texte court. Grâce à une formation massive sur les données, I2VGen-XL a démontré une précision sémantique, une continuité des détails et une clarté supérieures dans le domaine de la génération vidéo, apportant de nouvelles avancées dans le domaine de la génération d'images à vidéo.

Alibaba a annoncé le modèle vidéo de génération d'images open source I2VGen-XL dans un article publié en novembre, et a finalement publié le code et le modèle spécifiques. Le modèle est traité en deux étapes, d'abord une étape de base pour assurer la cohérence sémantique, puis une étape d'optimisation pour améliorer les détails de la vidéo et améliorer la résolution en intégrant du texte court. L'équipe de recherche a collecté une grande quantité de données à des fins d'optimisation, afin que le modèle I2VGen-XL présente une précision sémantique, une continuité des détails et une clarté plus élevées dans la génération de vidéos. Le code détaillé peut être trouvé sur GitHub.

L'open source du modèle I2VGen-XL fournit des ressources précieuses aux chercheurs et aux développeurs et contribue à promouvoir le développement ultérieur de la technologie vidéo de génération d'images. Son flux de traitement efficace et ses excellents effets de génération indiquent l'énorme potentiel de la technologie vidéo générée par l'IA à l'avenir. Attendez-vous à des applications plus innovantes basées sur I2VGen-XL.