Meta AI 研究人员提出了一种名为 AdaCache 的免训练方法,旨在加速视频扩散 Transformer 模型(DiTs)的推理速度。DiTs 在视频生成领域表现出色,但其庞大的模型规模和复杂的注意力机制导致推理速度缓慢,限制了其应用。AdaCache 巧妙地利用了“并非所有视频都相同”这一事实,通过缓存计算结果并针对每个视频定制缓存策略,在保证生成质量的同时显著提升了推理效率。Downcodes小编将为您详细解读这项技术。
生成高质量、时间连续的视频需要大量的计算资源,尤其是对于较长的时间跨度而言。最新的扩散Transformer 模型(DiTs)虽然在视频生成方面取得了显著进展,但由于其依赖于更大的模型和更复杂的注意力机制,导致推理速度较慢,反而加剧了这一挑战。为了解决这个问题,Meta AI 的研究人员提出了一种名为 AdaCache 的免训练方法来加速视频 DiTs。
AdaCache 的核心思想是基于“并非所有视频都相同”这一事实,这意味着某些视频比其他视频需要更少的去噪步骤即可达到合理的质量。 基于此,该方法不仅在扩散过程中缓存计算结果,还针对每个视频生成设计了定制化的缓存策略,从而最大限度地优化质量和延迟之间的权衡。
研究人员进一步引入了运动正则化(MoReg)方案,利用 AdaCache 中的视频信息,根据运动内容控制计算资源的分配。 由于包含高频纹理和大量运动内容的视频序列需要更多的扩散步骤才能达到合理的质量,所以 MoReg 可以更好地分配计算资源。
实验结果表明,AdaCache 可以显著提高推理速度(例如,在 Open-Sora720p -2s 视频生成中速度提升高达4.7倍),而不会牺牲生成质量。 此外,AdaCache 还具有良好的泛化能力,可以应用于不同的视频 DiT 模型,例如 Open-Sora、Open-Sora-Plan 和 Latte。 与其他免训练加速方法(例如 ∆-DiT、T-GATE 和 PAB)相比,AdaCache 在速度和质量方面都具有显著优势。
用户研究表明,与其他方法相比,用户更喜欢 AdaCache 生成的视频,并且认为其质量与基准模型相当。 这项研究证实了 AdaCache 的有效性,并为高效视频生成领域做出了重要贡献。 Meta AI 相信 AdaCache 可以广泛应用,并推动高保真长视频生成的普及化。
论文:https://arxiv.org/abs/2411.02397
项目主页:
https://adacache-dit.github.io/
GitHub:
https://github.com/AdaCache-DiT/AdaCache
总而言之,AdaCache 为高效视频生成提供了一种新颖且有效的方法,其显著的性能提升和良好的用户体验使其在未来应用中极具潜力。Downcodes小编相信,AdaCache 的出现将推动高保真长视频生成的进一步发展。