北京智谱华章科技有限公司重磅推出CogVideoX v1.5,这款视频生成模型的最新版本已对外开源!自8月初发布以来,CogVideoX系列凭借其领先技术和开发者友好特性,迅速成为视频生成领域的热门选择。Downcodes小编获悉,CogVideoX v1.5在视频生成能力、图像到视频转换(I2V)模型等方面均实现了显著提升,为用户带来更优质、更便捷的视频创作体验。
此次开源包含两个模型:CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。它们已同步上线清影平台,并与CogSound音效模型结合,提供更强大的AI视频生成服务,支持更高清分辨率、可变比例适应不同场景、多通道输出以及带声效的AI视频生成等特色功能。在技术层面,CogVideoX v1.5通过自动化筛选框架、端到端视频理解模型CogVLM2-caption以及高效的三维变分自编码器(3D VAE)等技术,显著提升了视频生成质量和内容连贯性。此外,自主研发的融合文本、时间和空间三维度的Transformer架构,进一步优化了模型性能。
在训练方面,CogVideoX v1.5构建了一个高效的扩散模型训练框架,通过多种并行计算和时间优化技术,实现了对长视频序列的快速训练。智谱华章表示,他们已验证了scaling law在视频生成领域的有效性,并计划在未来扩大数据量和模型规模,探索创新模型架构,以更高效地压缩视频信息,并更好地融合文本与视频内容。
代码:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
CogVideoX v1.5的开源,无疑将进一步推动视频生成领域的技术发展和应用创新,为开发者们提供更强大的工具和资源。期待未来CogVideoX系列带来更多惊喜!