A Zhipu AI abriu o código-fonte de seu modelo de geração de vídeo CogVideoX, um movimento que visa acelerar o desenvolvimento e a popularização de aplicativos da tecnologia de geração de vídeo. Com seu desempenho eficiente, a versão CogVideoX-2B requer apenas uma única placa gráfica 4090 para realizar inferência e uma única placa gráfica A6000 para completar o ajuste fino, o que reduz bastante o limite de uso e permite que seja mais amplamente utilizado em aplicações comerciais. campos. Este modelo é baseado na tecnologia avançada de autoencoder variacional 3D (3D VAE) e combinado com a tecnologia Transformer especializada, que pode gerar conteúdo de vídeo de alta qualidade, resolver efetivamente o problema de falta de descrição de texto dos dados de vídeo e filtrar estritamente os dados de vídeo. , garantindo a qualidade dos dados do treinamento do modelo.
O modelo CogVideoX usa tecnologia de autoencoder variacional 3D (3D VAE) para comprimir simultaneamente as dimensões espaciais e temporais do vídeo por meio de convolução tridimensional, alcançando taxas de compressão mais altas e melhor qualidade de reconstrução. A estrutura do modelo inclui um codificador, um decodificador e um regularizador de espaço latente, que garante a causalidade da informação por meio da convolução causal temporal. Além disso, a tecnologia especializada Transformer é usada para processar os dados de vídeo codificados e combiná-los com a entrada de texto para gerar conteúdo de vídeo de alta qualidade. Para treinar o modelo CogVideoX, a Zhipu AI desenvolveu um conjunto de métodos para triagem de dados de vídeo de alta qualidade, eliminando vídeos com edição excessiva, movimento incoerente e outros problemas, garantindo a qualidade dos dados para o treinamento do modelo. Ao mesmo tempo, o problema da falta de descrição textual dos dados de vídeo é resolvido por meio de um pipeline que gera legendas de vídeo a partir de legendas de imagens. Em termos de avaliação de desempenho, o CogVideoX tem um bom desempenho em vários indicadores, incluindo ações humanas, cenas, níveis dinâmicos, etc., bem como ferramentas de avaliação com foco nas características dinâmicas do vídeo. A Zhipu AI continuará a explorar inovações na área de geração de vídeo, incluindo novas arquiteturas de modelos, compressão de informações de vídeo e fusão de conteúdo de texto e vídeo.
Para treinar o modelo CogVideoX, a Zhipu AI desenvolveu um conjunto de métodos para triagem de dados de vídeo de alta qualidade, eliminando vídeos com edição excessiva, movimento incoerente e outros problemas, garantindo a qualidade dos dados para o treinamento do modelo. Ao mesmo tempo, o problema da falta de descrição textual dos dados de vídeo é resolvido por meio de um pipeline que gera legendas de vídeo a partir de legendas de imagens.
Em termos de avaliação de desempenho, o CogVideoX tem um bom desempenho em vários indicadores, incluindo ações humanas, cenas, níveis dinâmicos, etc., bem como ferramentas de avaliação com foco nas características dinâmicas do vídeo. A Zhipu AI continuará a explorar inovações na área de geração de vídeo, incluindo novas arquiteturas de modelos, compressão de informações de vídeo e fusão de conteúdo de texto e vídeo.
Repositório de código:
https://github.com/THUDM/CogVideo
Download do modelo:
https://huggingface.co/THUDM/CogVideoX-2b
Relatório técnico:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
O código aberto do CogVideoX fornece recursos valiosos para pesquisa de tecnologia de geração de vídeo e também indica que este campo dará início a uma nova onda de desenvolvimento. Seu desempenho eficiente e facilidade de uso levarão mais desenvolvedores a participar da inovação da tecnologia de geração de vídeo e promoverão sua ampla aplicação em vários setores. Esperamos mais avanços feitos pela Zhipu AI neste campo no futuro!