Rhymes AI lance le modèle révolutionnaire de génération de texte, d'image et de vidéo Allegro-TI2V - Article AI

Auteur：Eve Cole Date de mise à jour：2025-01-25 05:16:01

Rhymes AI a lancé le modèle révolutionnaire de génération de texte-image-vidéo Allegro-TI2V, qui marque une avancée majeure dans l'IA dans le domaine créatif. Allegro-TI2V prend en charge une longueur de contexte allant jusqu'à 79,2K, une résolution de sortie de 720 × 1280 pixels et propose plusieurs modes de génération, tels que la génération vidéo ultérieure et la génération vidéo intermédiaire, ce qui améliore considérablement l'efficacité de la création vidéo. Le modèle est publié sous la licence Apache2.0 et peut être facilement accessible et utilisé par les utilisateurs.

Rhymes AI a récemment publié son modèle révolutionnaire de génération de texte-image-vidéo Allegro-TI2V. Cette technologie révolutionnaire ouvre une nouvelle frontière pour la création de contenu numérique. En tant que dernière avancée en matière d'IA générative, Allegro-TI2V fournit aux créatifs des outils de narration visuelle sans précédent, soulignant l'énorme potentiel de la technologie de l'IA dans le domaine créatif.

Allegro-TI2V excelle dans de multiples spécifications techniques, prenant en charge des longueurs de contexte allant jusqu'à 79,2K, équivalentes à 88 images vidéo. Sa résolution de sortie est de 720 × 1 280 pixels et la vitesse de génération vidéo est de 15 images par seconde. Les utilisateurs peuvent également choisir d'interpoler à 30 FPS pour répondre aux besoins de différents scénarios d'application. L'architecture de ce modèle est très complexe, comprenant le modèle VideoVAE à 175 millions de paramètres et le modèle VideoDiT à 2,8 milliards de paramètres, lui permettant de capturer avec précision les invites textuelles saisies par l'utilisateur et l'essence de l'image initiale. De plus, Allegro-TI2V prend également en charge les modes multi-précision (FP32, BF16, FP16). En mode BF16, seulement 9,3 Go de mémoire GPU sont nécessaires pour générer de la vidéo, ce qui réduit considérablement les besoins matériels.

L'innovation d'Allegro-TI2V réside dans l'introduction de deux nouveaux modes de génération : Génération vidéo ultérieure : sur la base d'invites textuelles et d'images initiales, un contenu vidéo continu est créé. Ce mode aide les créateurs à générer facilement des vidéos qui correspondent à leur thème et à leur style définis. Génération vidéo intermédiaire : sur la base des première et dernière images d'une vidéo donnée, générez des images intermédiaires de transition naturelles, brisant ainsi les limitations temporelles et spatiales du montage vidéo traditionnel.

Ces modes innovants permettent à Allegro-TI2V de fournir aux créateurs une méthode de création vidéo plus efficace et plus flexible, améliorant considérablement l'efficacité et la qualité de la création.

Rhymes AI a publié Allegro-TI2V sous la licence Apache 2.0, rendant cette technologie plus facilement accessible et utilisable par les chercheurs, les développeurs et les créateurs de contenu. Les utilisateurs n'ont qu'à installer Python3.10+, PyTorch2.4+ et CUDA12.4+ pour démarrer facilement et découvrir rapidement cette technologie avancée.

Allegro-TI2V a un large éventail de perspectives d'application, de la production cinématographique et du développement de jeux à l'art numérique et au prototypage créatif, qui peuvent tous exploiter pleinement ses puissantes capacités de génération. Selon les données fournies par le développeur, un seul GPU H100 peut générer une vidéo de 6 secondes en 20 minutes environ. Avec une configuration de 8 GPU H100, le temps de génération sera réduit à 3 minutes, améliorant considérablement l'efficacité de la création de contenu vidéo. .

Adresse d'utilisation : https://huggingface.co/rhymes-ai/Allegro-TI2V

Adresse du produit : https://rhymes.ai/blog-details/allegro-advanced-video-generation-model

Grâce à ses fonctions puissantes et sa facilité d'utilisation, Allegro-TI2V favorisera grandement le développement de la création de contenu vidéo et apportera de nouvelles possibilités à l'industrie créative. Sa nature open source encourage également une participation communautaire plus large et le développement technologique, et il vaut la peine d’attendre avec impatience ses applications et améliorations futures.