A Pequim Zhipu Huazhang Technology Co., Ltd. lançou o modelo Cogvideox v1.5 de código aberto, que fez avanços significativos no campo da geração de vídeo. Após seu lançamento no início de agosto, a série Cogvideox rapidamente se tornou o foco da indústria com seus principais recursos de tecnologia e desenvolvedores. Esta atualização trouxe muitas melhorias, incluindo o suporte à geração de vídeo mais longa e de maior definição, bem como uma melhoria significativa na qualidade e na compreensão semântica do vídeo de geração de imagens, fornecendo aos usuários uma melhor experiência de geração de vídeo de IA. O que vale a pena notar é que a nova versão integra a plataforma Qingying e o modelo de efeito sonoro Cogsound, melhorando ainda mais o ecossistema de geração de vídeo.
O conteúdo deste código aberto inclui dois modelos: Cogvideox v1.5-5b e CogVideox v1.5-5b-i2v. A nova versão também será lançada na plataforma Qingying simultaneamente e será combinada com o recém-lançado modelo de efeito sonoro de Cogsound para proporcionar melhoria da qualidade, suporte de resolução de alta definição, proporções variáveis para se adaptar a diferentes cenários de reprodução, multi-canal Vídeos de saída e AI com efeitos sonoros.
No nível técnico, o CogVideox v1.5 filtra os dados de vídeo que carecem de conectividade dinâmica através de uma estrutura de filtragem automatizada e usa um modelo de entendimento de vídeo de ponta a ponta, Capvlm2-Caption para gerar descrições precisas de conteúdo de vídeo, melhorando a compreensão do texto e a conformidade de instruções recursos. Além disso, a nova versão adota um autoencoder tridimensional eficiente tridimensional (3D VAE) para resolver o problema da coerência do conteúdo e desenvolve independentemente uma arquitetura de transformador que integra texto tridimensional, tempo e espaço, cancela o módulo de ação cruzada tradicional e a tecnologia de normalização de camadas adaptativas especializada otimiza a utilização de informações de etapa no tempo no modelo de difusão.
Em termos de treinamento, o CogVideox v1.5 constrói uma estrutura de treinamento de modelos de difusão eficiente e atinge o treinamento rápido de longas sequências de vídeo através de uma variedade de técnicas de computação paralela e otimização de tempo. A empresa disse que verificou a eficácia da escala da lei no campo da geração de vídeos e planeja expandir o volume de dados e a escala de modelos no futuro, explorar arquiteturas inovadoras para compactar mais eficientemente as informações de vídeo e integrar melhor o conteúdo de texto e vídeo.
Código: https://github.com/thudm/cogvideo
Modelo: https://huggingface.co/thudm/cogvideox1.5-5b-t
O código aberto do Cogvideox v1.5 fornece um novo impulso para o desenvolvimento da tecnologia de geração de vídeo e fornece aos desenvolvedores ferramentas mais poderosas. Vale a pena a inovação tecnológica contínua de Zhipu Huazhang e o espírito de código aberto é digno de reconhecimento, e as perspectivas futuras de aplicação desse modelo valem ansiosamente. Ansioso por aplicativos mais inovadores com base no CogVideox v1.5.