Downcodes小编获悉,智谱AI公司近日开源了其全新视频生成模型CogVideoX-5B。该模型在视频生成质量、视觉效果和推理性能上均实现了显著提升,相比前代产品CogVideoX-2B有了大幅进步。即使是早期的GTX 1080Ti显卡也能运行上一代模型,而RTX 3060等主流显卡则可以轻松驾驭CogVideoX-5B。这标志着高质量视频生成技术的门槛进一步降低,为更多开发者和用户提供了便捷高效的视频生成方案。
近日,智谱AI公司开源了全新的视频生成模型CogVideoX-5B,它不仅在视频生成的质量和视觉效果上超出了前代产品CogVideoX-2B,而且它的推理性能得到了大幅度的提升,使得早期的GTX1080Ti显卡能够运行上一代模型,而桌面端的甜品级显卡,如RTX3060,更是可以轻松驾驭这款新模型。
CogVideoX-5B 与 CogVideoX-2B 详细参数对比:
这个大规模的DiT(扩散变换器)模型,被设计用于执行文本到视频的生成任务。其背后的技术包括3D因果变分自编码器(3D causal VAE),该技术通过将视频数据压缩到潜在空间中,并在时间维度上进行解码,以达到高效的视频重建。
此外,专家变换器(Expert Transformer)的运用,将文本嵌入和视频嵌入相结合,采用3D-RoPE作为位置编码,通过专家自适应层归一化处理两个模态的数据,并使用3D全注意力机制进行时空联合建模。
代码:https://top.aibase.com/tool/cogvideox
模型下载:https://huggingface.co/THUDM/CogVideoX-5b
论文链接:https://arxiv.org/pdf/2408.06072
CogVideoX-5B 的开源,为视频生成领域带来了新的突破,降低了技术门槛,并为未来的研究和应用提供了坚实的基础。 Downcodes小编相信,这项技术将推动视频生成技术的进一步发展,并为更多领域带来创新应用。