CogVideoX v1.5, a versão mais recente do modelo de vídeo de código aberto da Zhipu AI, fica online com "novo vídeo nítido" em 4K de 10 segundos

Autor：Eve Cole Data da Última Atualização：2024-12-01 09:00:01

O editor de Downcodes relata: A equipe técnica da Zhipu lançou hoje um importante modelo de geração de vídeo CogVideoX v1.5 de código aberto, que é outra grande atualização da série desde agosto. A nova versão fez um avanço significativo nos recursos de geração de vídeo, suportando vídeos mais longos, resoluções mais altas e taxas de quadros mais suaves, e combinada com o modelo de efeito sonoro CogSound recém-lançado para criar uma plataforma de "novo vídeo nítido" para fornecer aos usuários melhores vídeos Premium experiência de criação. Esta atualização não apenas melhora a qualidade do vídeo, mas também aprimora a capacidade do modelo de compreender semânticas complexas, fornecendo aos desenvolvedores ferramentas mais poderosas.

Entende-se que esta atualização melhorou muito os recursos de geração de vídeo, incluindo suporte para durações de vídeo de 5 e 10 segundos, resolução de 768P e recursos de geração de 16 quadros. Ao mesmo tempo, o modelo I2V (imagem para vídeo) também suporta qualquer proporção de tamanho, melhorando ainda mais a capacidade de compreender semânticas complexas.

CogVideoX v1.5 contém dois modelos principais: CogVideoX v1.5-5B e CogVideoX v1.5-5B-I2V, que são projetados para fornecer aos desenvolvedores ferramentas de geração de vídeo mais poderosas.

O que é ainda mais digno de nota é que o CogVideoX v1.5 será lançado simultaneamente na plataforma Qingying e combinado com o modelo de efeito sonoro CogSound recém-lançado para se tornar o "Novo Qingying" . New Qingying fornecerá uma série de serviços especiais, incluindo melhorias significativas na qualidade de vídeo, desempenho estético e racionalidade de movimento, e apoiará a geração de vídeos de ultra-alta definição de 10 segundos, 4K e 60 quadros.

A introdução oficial é a seguinte:

Melhoria de qualidade: A capacidade dos vídeos Tusheng em termos de qualidade, desempenho estético, racionalidade de movimento e compreensão semântica de palavras complexas foi significativamente aprimorada.
Resolução Ultra-HD: suporta a geração de vídeos de ultra-alta definição de 10s, 4K e 60 quadros.
Proporção variável: suporta qualquer proporção para se adaptar a diferentes cenários de reprodução.
Saída multicanal: O mesmo comando/imagem pode gerar 4 vídeos ao mesmo tempo.
Vídeo AI com efeitos sonoros: Xinqingying pode gerar efeitos sonoros que correspondem à imagem.

Em termos de processamento de dados, a equipe CogVideoX se concentra em melhorar a qualidade dos dados, desenvolver uma estrutura de filtragem automatizada para filtrar dados de vídeo ruins e lançar o modelo de compreensão de vídeo de ponta a ponta CogVLM2-caption para gerar descrições de conteúdo precisas. Este modelo pode lidar com instruções complexas com eficácia e garantir que o vídeo gerado atenda às necessidades do usuário.

Para melhorar a coerência do conteúdo, o CogVideoX usa uma tecnologia eficiente de autoencodificador variacional tridimensional (3D VAE), que reduz significativamente os custos e a dificuldade de treinamento. Além disso, a equipe também desenvolveu uma arquitetura Transformer que integra as três dimensões de texto, tempo e espaço. Ao remover o módulo tradicional de atenção cruzada, o efeito interativo de texto e vídeo é aprimorado e a qualidade da geração de vídeo é melhorada.

No futuro, a equipe técnica da Zhipu continuará a expandir a quantidade de dados e a escala do modelo e a explorar uma arquitetura de modelo mais eficiente para obter uma melhor experiência de geração de vídeo. O código aberto do CogVideoX v1.5 não apenas fornece aos desenvolvedores ferramentas poderosas, mas também injeta uma nova vitalidade no campo da criação de vídeo.

Código: https://github.com/thudm/cogvideo

Modelo: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Destaque:

A nova versão do CogVideoX v1.5 é de código aberto e suporta vídeo de 5/10 segundos, resolução de 768P e capacidade de geração de 16 quadros.

É lançada a nova plataforma Qingying, combinada com o modelo de efeito sonoro CogSound, para fornecer geração de vídeo 4K de ultra-alta definição.

O processamento de dados e a inovação de algoritmos garantem a qualidade e consistência dos vídeos gerados.

Em suma, o código aberto do CogVideoX v1.5 e o lançamento da nova plataforma Qingying marcam um passo importante na tecnologia de geração de vídeo com IA, trazendo ferramentas mais poderosas e um espaço criativo mais amplo para desenvolvedores e criadores. Esperamos ver aplicativos mais interessantes baseados em CogVideoX no futuro.