Zhipu AI a rendu open source son modèle de génération vidéo CogVideoX, une initiative visant à accélérer le développement et la vulgarisation des applications de la technologie de génération vidéo. Grâce à ses performances efficaces, la version CogVideoX-2B ne nécessite qu'une seule carte graphique 4090 pour effectuer l'inférence et une seule carte graphique A6000 pour effectuer le réglage fin, ce qui abaisse considérablement le seuil d'utilisation et lui permet d'être plus largement utilisée dans le domaine commercial. champs. Ce modèle est basé sur la technologie avancée d'encodeur automatique variationnel 3D (3D VAE) et combiné à la technologie experte Transformer, qui peut générer du contenu vidéo de haute qualité, résoudre efficacement le problème du manque de description textuelle des données vidéo et filtrer strictement les données vidéo. , garantissant la qualité des données de la formation du modèle.
Le modèle CogVideoX utilise la technologie d'encodeur automatique variationnel 3D (3D VAE) pour compresser simultanément les dimensions spatiales et temporelles de la vidéo via une convolution tridimensionnelle, obtenant ainsi des taux de compression plus élevés et une meilleure qualité de reconstruction. La structure du modèle comprend un codeur, un décodeur et un régulateur d'espace latent, qui garantit la causalité des informations par convolution causale temporelle. De plus, la technologie experte Transformer est utilisée pour traiter les données vidéo encodées et les combiner avec la saisie de texte pour générer un contenu vidéo de haute qualité. Afin de former le modèle CogVideoX, Zhipu AI a développé un ensemble de méthodes pour filtrer des données vidéo de haute qualité, éliminant les vidéos présentant une surédition, des mouvements incohérents et d'autres problèmes, garantissant ainsi la qualité des données pour la formation du modèle. Dans le même temps, le problème du manque de description textuelle des données vidéo est résolu grâce à un pipeline qui génère des sous-titres vidéo à partir des sous-titres d'images. En termes d'évaluation des performances, CogVideoX fonctionne bien sur plusieurs indicateurs, notamment les actions humaines, les scènes, les niveaux dynamiques, etc., ainsi que sur les outils d'évaluation axés sur les caractéristiques dynamiques de la vidéo. Zhipu AI continuera d'explorer les innovations dans le domaine de la génération vidéo, notamment de nouvelles architectures de modèles, la compression des informations vidéo et la fusion de contenu texte et vidéo.
Afin de former le modèle CogVideoX, Zhipu AI a développé un ensemble de méthodes pour filtrer des données vidéo de haute qualité, éliminant les vidéos présentant une surédition, des mouvements incohérents et d'autres problèmes, garantissant ainsi la qualité des données pour la formation du modèle. Dans le même temps, le problème du manque de description textuelle des données vidéo est résolu grâce à un pipeline qui génère des sous-titres vidéo à partir des sous-titres d'images.
En termes d'évaluation des performances, CogVideoX fonctionne bien sur plusieurs indicateurs, notamment les actions humaines, les scènes, les niveaux dynamiques, etc., ainsi que sur les outils d'évaluation axés sur les caractéristiques dynamiques de la vidéo. Zhipu AI continuera d'explorer les innovations dans le domaine de la génération vidéo, notamment de nouvelles architectures de modèles, la compression des informations vidéo et la fusion de contenu texte et vidéo.
Dépôt de code :
https://github.com/THUDM/CogVideo
Téléchargement du modèle :
https://huggingface.co/THUDM/CogVideoX-2b
Rapport technique :
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
L'open source de CogVideoX fournit des ressources précieuses pour la recherche sur les technologies de génération vidéo et indique également que ce domaine ouvrira la voie à une nouvelle vague de développement. Ses performances efficaces et sa facilité d'utilisation inciteront davantage de développeurs à participer à l'innovation de la technologie de génération vidéo et à promouvoir son application généralisée dans diverses industries. Nous attendons avec impatience d’autres percées réalisées par Zhipu AI dans ce domaine à l’avenir !