Beijing Zhipu Huazhang Technology Co., Ltd. a lancé CogVideoX v1.5. La dernière version de ce modèle de génération vidéo est open source ! Depuis sa sortie début août, la série CogVideoX est rapidement devenue un choix populaire dans le domaine de la génération vidéo grâce à sa technologie de pointe et ses fonctionnalités conviviales pour les développeurs. L'éditeur de Downcodes a appris que CogVideoX v1.5 a réalisé des améliorations significatives dans les capacités de génération vidéo et les modèles de conversion image-vidéo (I2V), offrant aux utilisateurs une expérience de création vidéo meilleure et plus pratique.
Cet open source comprend deux modèles : CogVideoX v1.5-5B et CogVideoX v1.5-5B-I2V. Ils ont été lancés simultanément sur la plate-forme Qingying et combinés avec le modèle d'effets sonores CogSound pour fournir un service de génération vidéo IA plus puissant, prenant en charge une résolution haute définition, des proportions variables pour s'adapter aux différentes scènes, une sortie multicanal et une génération vidéo IA. avec des effets sonores. Au niveau technique, CogVideoX v1.5 améliore considérablement la qualité de la génération vidéo et la cohérence du contenu grâce à des technologies telles qu'un cadre de filtrage automatisé, un modèle de compréhension vidéo de bout en bout CogVLM2-caption et un encodeur automatique variationnel tridimensionnel efficace (VAE 3D). De plus, l'architecture Transformer développée indépendamment qui intègre les trois dimensions du texte, du temps et de l'espace optimise davantage les performances du modèle.
En termes de formation, CogVideoX v1.5 construit un cadre de formation de modèle de diffusion efficace et permet une formation rapide de longues séquences vidéo grâce à une variété de technologies de calcul parallèle et d'optimisation du temps. Zhipu Huazhang a déclaré avoir vérifié l'efficacité de la loi de mise à l'échelle dans le domaine de la génération vidéo, et prévoit d'augmenter la quantité de données et l'échelle des modèles à l'avenir, et d'explorer des architectures de modèles innovantes pour compresser les informations vidéo plus efficacement et mieux intégrer le texte et Contenu vidéo.
Code : https://github.com/thudm/cogvideo
Modèle : https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
L'open source de CogVideoX v1.5 favorisera sans aucun doute davantage le développement technologique et l'innovation applicative dans le domaine de la génération vidéo, en fournissant aux développeurs des outils et des ressources plus puissants. Dans l'attente de plus de surprises de la série CogVideoX à l'avenir !