Zhipu AI a lancé une nouvelle génération de modèle de génération vidéo CogVideoX, dont le cœur est d'améliorer considérablement l'efficacité et la qualité de la génération vidéo, marquant ainsi une avancée majeure de l'entreprise dans le domaine de la technologie multimodale. CogVideoX a réalisé de multiples innovations au niveau technique et a été ouvert aux utilisateurs via la plate-forme Zhipu Qingyan, fournissant des services pratiques de génération de vidéo IA et fournissant des interfaces d'appel API pour les entreprises et les développeurs.
Zhipu AI a lancé une nouvelle génération de modèle de génération vidéo CogVideoX, marquant un autre progrès important dans le développement de la technologie multimodale de l'entreprise.
Les principales fonctionnalités techniques de CogVideoX incluent :
Structure d'encodeur automatique variationnel tridimensionnel (VAE 3D) : cette structure développée indépendamment par Zhipu AI peut compresser les données vidéo originales à 2 % de la taille d'origine, réduisant ainsi le coût et la difficulté de la formation. Combiné avec le module d'encodage de position 3D RoPE, il améliore la capacité de capturer les relations inter-images dans la dimension temporelle et établit des dépendances à long terme dans les vidéos.
Modèle de compréhension vidéo de bout en bout : il améliore la capacité du modèle à comprendre le texte et à suivre les instructions, garantissant que la vidéo générée est plus conforme aux besoins de l'utilisateur et peut gérer des instructions rapides ultra longues et complexes.
Architecture de transformateur qui intègre le texte, le temps et l'espace en trois dimensions : Expert Block est conçu de manière innovante pour aligner les espaces modaux de texte et de vidéo et optimise l'interaction entre les modalités grâce au mécanisme Full Attention.
Le modèle CogVideoX a été lancé sur les PC, les applications mobiles et les mini-programmes de Zhipu Qingyan. Les utilisateurs peuvent profiter gratuitement des services vidéo générés par du texte et des images par l'IA grâce à la fonction « Ying ». Les principales fonctionnalités de Qingying incluent une génération rapide, des capacités efficaces de suivi des commandes, la cohérence du contenu et la flexibilité de la planification des écrans.
En outre, bigmodel.cn, la plateforme ouverte pour les grands modèles, a également déployé « Qingying », et les entreprises et les développeurs peuvent utiliser ses fonctions via des appels API. Zhipu AI a vérifié l'efficacité de la loi de mise à l'échelle dans le domaine de la génération vidéo et continuera d'élargir l'échelle des données et l'échelle du modèle, ainsi que de rechercher de nouvelles architectures de modèles pour compresser les informations vidéo plus efficacement et intégrer le contenu texte et vidéo de manière plus complète.
Adresse d'expérience : https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu
Le lancement de CogVideoX offre non seulement aux utilisateurs une expérience de génération de vidéo IA plus pratique, mais indique également que la technologie de génération de vidéo IA inaugurera une nouvelle étape de développement. À l'avenir, Zhipu AI continuera d'explorer des architectures de modèles et des solutions techniques plus avancées pour promouvoir l'avancement continu de la technologie de génération vidéo IA.