智譜AI影片生成模型CogVideoX v1.5開源支援5/10秒影片生成

作者：Eve Cole 更新時間：2025-01-20 13:12:02

北京智谱华章科技有限公司重磅推出CogVideoX v1.5，这款视频生成模型的最新版本已对外开源！自8月初发布以来，CogVideoX系列凭借其领先技术和开发者友好特性，迅速成为视频生成领域的热门选择。Downcodes小编获悉，CogVideoX v1.5在视频生成能力、图像到视频转换(I2V)模型等方面均实现了显著提升，为用户带来更优质、更便捷的视频创作体验。

此次开源包含两个模型：CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。它们已同步上线清影平台，并与CogSound音效模型结合，提供更强大的AI视频生成服务，支持更高清分辨率、可变比例适应不同场景、多通道输出以及带声效的AI视频生成等特色功能。在技术层面，CogVideoX v1.5通过自动化筛选框架、端到端视频理解模型CogVLM2-caption以及高效的三维变分自编码器(3D VAE)等技术，显著提升了视频生成质量和内容连贯性。此外，自主研发的融合文本、时间和空间三维度的Transformer架构，进一步优化了模型性能。

在训练方面，CogVideoX v1.5构建了一个高效的扩散模型训练框架，通过多种并行计算和时间优化技术，实现了对长视频序列的快速训练。智谱华章表示，他们已验证了scaling law在视频生成领域的有效性，并计划在未来扩大数据量和模型规模，探索创新模型架构，以更高效地压缩视频信息，并更好地融合文本与视频内容。

代码:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

CogVideoX v1.5的开源，无疑将进一步推动视频生成领域的技术发展和应用创新，为开发者们提供更强大的工具和资源。期待未来CogVideoX系列带来更多惊喜！