智譜AI開源新模型，老顯卡也能開啟影片生成新時代

作者：Eve Cole 更新時間：2024-12-07 14:16:01

Downcodes小编获悉，智谱AI公司近日开源了其全新视频生成模型CogVideoX-5B。该模型在视频生成质量、视觉效果和推理性能上均实现了显著提升，相比前代产品CogVideoX-2B有了大幅进步。即使是早期的GTX 1080Ti显卡也能运行上一代模型，而RTX 3060等主流显卡则可以轻松驾驭CogVideoX-5B。这标志着高质量视频生成技术的门槛进一步降低，为更多开发者和用户提供了便捷高效的视频生成方案。

近日，智谱AI公司开源了全新的视频生成模型CogVideoX-5B，它不仅在视频生成的质量和视觉效果上超出了前代产品CogVideoX-2B，而且它的推理性能得到了大幅度的提升，使得早期的GTX1080Ti显卡能够运行上一代模型，而桌面端的甜品级显卡，如RTX3060，更是可以轻松驾驭这款新模型。

CogVideoX-5B 与 CogVideoX-2B 详细参数对比:

这个大规模的DiT（扩散变换器）模型，被设计用于执行文本到视频的生成任务。其背后的技术包括3D因果变分自编码器(3D causal VAE)，该技术通过将视频数据压缩到潜在空间中，并在时间维度上进行解码，以达到高效的视频重建。

此外，专家变换器（Expert Transformer）的运用，将文本嵌入和视频嵌入相结合，采用3D-RoPE作为位置编码，通过专家自适应层归一化处理两个模态的数据，并使用3D全注意力机制进行时空联合建模。

代码:https://top.aibase.com/tool/cogvideox

模型下载:https://huggingface.co/THUDM/CogVideoX-5b

论文链接:https://arxiv.org/pdf/2408.06072

CogVideoX-5B 的开源，为视频生成领域带来了新的突破，降低了技术门槛，并为未来的研究和应用提供了坚实的基础。 Downcodes小编相信，这项技术将推动视频生成技术的进一步发展，并为更多领域带来创新应用。