王文1,2 、王秋雨2 、郑克成2 、欧阳浩2 、陈哲凯1 、龚彪2 、陈浩1 、
沉玉军2 ,沉春华1
1浙江大学,中国, 2蚂蚁集团
我们提出了 Framer,一种更加可控和交互式的帧插值方法,允许用户通过自定义选定关键点的轨迹、增强控制和处理具有挑战性的情况来生成两个图像之间的平滑过渡帧。
所提出的方法 Framer 提供交互式帧插值,允许用户通过定制所选关键点的轨迹来定制过渡。这种方法减轻了图像变换的模糊性,能够更精细地控制局部运动,并提高模型处理具有挑战性的情况(例如,具有不同形状和样式的对象)的能力。 Framer 还包括“自动驾驶”模式,可自动估计关键点并细化轨迹,从而简化流程并实现运动自然且时间连贯的结果。
这项工作利用大规模预训练的图像到视频扩散模型(稳定视频扩散)作为基础模型。它引入了额外的端帧调节以促进视频插值,并结合了用于用户交互的点轨迹控制分支。
Framer 在视觉质量和自然运动方面优于现有的帧插值方法,特别是在涉及复杂运动和显着外观变化的情况下。与其他方法相比,使用 FVD(Fréchet Video Distance)进行的定量评估表现出优越的性能。用户研究显示出对 Framer 输出的强烈偏好,强调了其在产生逼真且视觉上吸引人的结果方面的有效性。
请注意,视频是空间压缩的。我们建议读者访问项目页面以获取原始视频。
起始图像 | 输入轨迹和插值结果 | 结束图像 |
起始图像 | 输入轨迹和插值结果 | 结束图像 |
起始图像 | 插值结果 | 结束图像 |
起始图像 | 插值结果 | 结束图像 |
起始图像 | 插值结果 | 结束图像 |
起始图像 | 插值结果 | 结束图像 |
如果我们的代码有用,请考虑引用我们的论文:
@article { wang2024framer ,
title = { Framer: Interactive Video Interpolation } ,
author = { Wang, Wen and Wang, Qiuyu and Zheng, Kecheng and Ouyang, Hao and Chen, Zhekai and Gong, Biao and Chen, Hao and Shen, Yujun and Shen, Chunhua } ,
journal = { arXiv preprint https://arxiv.org/abs/2410.18978 } ,
year = { 2024 }
}
对于学术用途,该项目根据 2 条款 BSD 许可证获得许可。如需商业用途,请联系C Shen。