Nouveau modèle open source Zhipu AI, les anciennes cartes graphiques peuvent également ouvrir une nouvelle ère de génération vidéo

Auteur：Eve Cole Date de mise à jour：2024-12-07 14:16:01

L'éditeur de Downcodes a appris que Zhipu AI Company a récemment rendu open source son nouveau modèle de génération vidéo CogVideoX-5B. Ce modèle a permis d'améliorer considérablement la qualité de la génération vidéo, les effets visuels et les performances d'inférence, ce qui constitue une amélioration significative par rapport au produit de la génération précédente CogVideoX-2B. Même les premières cartes GTX 1080Ti peuvent exécuter des modèles de génération précédente, tandis que les cartes grand public comme la RTX 3060 peuvent gérer facilement CogVideoX-5B. Cela marque un nouvel abaissement du seuil de la technologie de génération vidéo de haute qualité, offrant à davantage de développeurs et d'utilisateurs des solutions de génération vidéo pratiques et efficaces.

Récemment, Zhipu AI Company a open source un nouveau modèle de génération vidéo CogVideoX-5B. Non seulement il surpasse le produit de la génération précédente CogVideoX-2B en termes de qualité de génération vidéo et d'effets visuels, mais ses performances de raisonnement ont été considérablement améliorées, ce qui en fait Early. Les cartes graphiques GTX1080Ti peuvent exécuter le modèle de la génération précédente, et les cartes graphiques de bureau, telles que la RTX3060, peuvent facilement gérer ce nouveau modèle.

Comparaison détaillée des paramètres entre CogVideoX-5B et CogVideoX-2B :

Ce modèle DiT (transformateur de diffusion) à grande échelle est conçu pour effectuer des tâches de génération de texte en vidéo. La technologie sous-jacente comprend un auto-encodeur variationnel causal 3D (VAE causal 3D), qui permet une reconstruction vidéo efficace en compressant les données vidéo dans un espace latent et en les décodant dans la dimension temporelle.

De plus, l'utilisation d'Expert Transformer combine l'intégration de texte et l'intégration de vidéo, utilise 3D-RoPE comme encodage de position, normalise les données des deux modalités via la couche adaptative experte et utilise toute l'attention 3D. Le mécanisme de force est modélisé conjointement dans l'espace. et le temps.

Code : https://top.aibase.com/tool/cogvideox

Téléchargement du modèle : https://huggingface.co/THUDM/CogVideoX-5b

Lien papier : https://arxiv.org/pdf/2408.06072

L'open source de CogVideoX-5B a apporté de nouvelles avancées dans le domaine de la génération vidéo, a abaissé le seuil technique et a fourni une base solide pour les recherches et applications futures. L'éditeur de Downcodes estime que cette technologie favorisera le développement ultérieur de la technologie de génération vidéo et apportera des applications innovantes à davantage de domaines.