O editor do Downcodes soube que a Zhipu AI Company abriu recentemente o código-fonte de seu novo modelo de geração de vídeo CogVideoX-5B. Este modelo alcançou melhorias significativas na qualidade de geração de vídeo, efeitos visuais e desempenho de inferência, o que é uma melhoria significativa em comparação com o produto da geração anterior CogVideoX-2B. Mesmo as primeiras placas GTX 1080Ti podem rodar modelos da geração anterior, enquanto placas convencionais como a RTX 3060 podem lidar com o CogVideoX-5B com facilidade. Isto marca uma redução ainda maior do limite para a tecnologia de geração de vídeo de alta qualidade, proporcionando a mais desenvolvedores e usuários soluções de geração de vídeo convenientes e eficientes.
Recentemente, a Zhipu AI Company abriu o código-fonte de um novo modelo de geração de vídeo CogVideoX-5B. Ele não apenas supera o produto da geração anterior CogVideoX-2B em termos de qualidade de geração de vídeo e efeitos visuais, mas seu desempenho de raciocínio foi bastante melhorado, tornando-o precoce. As placas gráficas GTX1080Ti podem rodar o modelo da geração anterior, e as placas gráficas de nível sobremesa para desktop, como a RTX3060, podem lidar facilmente com este novo modelo.
Comparação detalhada de parâmetros entre CogVideoX-5B e CogVideoX-2B:
Este modelo DiT (transformador de difusão) em grande escala foi projetado para executar tarefas de geração de texto para vídeo. A tecnologia por trás dele inclui autoencodificador variacional causal 3D (VAE causal 3D), que alcança uma reconstrução de vídeo eficiente ao compactar dados de vídeo no espaço latente e decodificá-los na dimensão temporal.
Além disso, o uso do Expert Transformer combina incorporação de texto e vídeo, usa 3D-RoPE como codificação de posição, normaliza os dados das duas modalidades por meio da camada adaptativa especializada e usa atenção total 3D O mecanismo de força é modelado conjuntamente no espaço e tempo.
Código: https://top.aibase.com/tool/cogvideox
Download do modelo: https://huggingface.co/THUDM/CogVideoX-5b
Link do artigo: https://arxiv.org/pdf/2408.06072
O código aberto do CogVideoX-5B trouxe novos avanços no campo da geração de vídeo, reduziu o limite técnico e forneceu uma base sólida para futuras pesquisas e aplicações. O editor do Downcodes acredita que esta tecnologia promoverá o desenvolvimento da tecnologia de geração de vídeo e trará aplicações inovadoras para mais campos.