La communauté ModelScope a mis à jour une version open source de son modèle de génération vidéo Sora open source national CogVideoX - CogVideoX-5B, qui est un modèle de génération texte-vidéo basé sur un modèle DiT à grande échelle. Par rapport au précédent CogVideoX-2B, le nouveau modèle a considérablement amélioré la qualité vidéo et les effets visuels. CogVideoX-5B utilise un auto-encodeur variationnel causal 3D (VAE causal 3D) et la technologie experte Transformer, et utilise 3D-RoPE comme mécanisme d'encodage de position et d'attention totale 3D pour la modélisation spatio-temporelle des articulations. Il utilise également une technologie d'entraînement progressif. , des vidéos de meilleure qualité et plus animées.
Par rapport au précédent CogVideoX-2B, le nouveau modèle a considérablement amélioré la qualité et les effets visuels de la génération vidéo.
CogVideoX-5B est basé sur un modèle DiT (transformateur de diffusion) à grande échelle, spécialement conçu pour les tâches de génération texte-vidéo. Le modèle adopte un auto-encodeur variationnel causal 3D (VAE causal 3D) et la technologie experte Transformer, combine des intégrations de texte et de vidéo, utilise 3D-RoPE comme codage de position et utilise un mécanisme d'attention totale 3D pour la modélisation spatio-temporelle des articulations.
De plus, le modèle adopte une technologie de formation progressive et est capable de générer des vidéos cohérentes et de haute qualité à long terme avec des caractéristiques de mouvement significatives.
Lien du modèle :
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b
L'open source de CogVideoX-5B a apporté de nouvelles percées technologiques et opportunités de développement dans le domaine de la génération vidéo d'IA nationale, et a également fourni des outils et des ressources puissants aux chercheurs et aux développeurs. On pense que des applications plus innovantes basées sur CogVideoX-5B apparaîtront à l'avenir, favorisant le progrès continu de la technologie de génération vidéo IA. L'accès facile au modèle abaisse également le seuil de recherche et d'application, favorisant ainsi une diffusion et une application plus larges de la technologie.