Colossal-AI团队开源了Sora算法复现方案Open-Sora,旨在降低复现成本并提升性能。该方案涵盖了从数据处理到训练推理的全流程,支持多种模型结构、视频压缩方法和并行训练优化,显着提高了训练效率。 Open-Sora在单台H800 SXM 8*80GB GPU上,使用DiT-XL/2模型进行600K序列长度的性能测试,结果显示其性能提升和成本降低都超过40%。该项目致力于提供一个完整、高效的Sora复现方案,为研究者和开发者提供便利。
Colossal-AI开源了完整的Sora复现架构方案Open-Sora,声称可降低46%复现成本,并将模型训练输入序列长度扩充至819K patches。 Sora算法复现方案在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间的时空块序列,然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。 Open-Sora将Sora可能使用的训练pipeline归纳为提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程。目前Open-Sora已涵盖提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程,支持动态分辨率,支持多种模型结构,支持多种视频压缩方法,支持多种并行训练优化。性能方面,在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例,在600K的序列长度时,Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。 Open-Sora开源地址:https://github.com/hpcaitech/Open-Sora。Open-Sora的开源为研究者和开发者提供了宝贵的资源,加速了视频生成技术的进步。其高效率和低成本的特点,有望推动更多人参与到该领域的研究中来。期待未来Open-Sora能够进一步完善和发展,为AI视频生成领域贡献更多力量。