Downcodes小编带你了解谷歌ReCapture技术,这项颠覆性技术将如何改变视频编辑!ReCapture让普通用户也能轻松实现专业级的摄像机运动调整,重新设计视频镜头语言,为视频后期制作带来革命性变化。这项技术不再依赖传统的4D中间表示方法,而是巧妙地利用生成式视频模型的运动知识,将视频编辑转化为视频到视频的转换过程,极大简化了操作流程,并保留了视频的细节和画面质量。
谷歌研究团队最新推出的 ReCapture 技术,正在颠覆传统视频编辑的玩法。这项创新让普通用户也能轻松实现专业级的摄像机运动调整,为已拍摄的视频重新设计镜头语言。
传统视频后期制作中,改变已拍摄视频的镜头角度一直是个技术难题。现有方案在处理不同类型的视频内容时,往往难以同时保持复杂的运镜效果和画面细节。ReCapture 另辟蹊径,没有采用传统的4D 中间表示方法,而是巧妙利用生成式视频模型中储存的运动知识,通过 Stable Video Diffusion 将任务重新定义为视频到视频的转换过程。
这套系统采用两阶段工作流程。第一阶段生成锚定视频,也就是具有新机位的初始输出版本。这一阶段可以通过 CAT3D 等扩散模型创建多角度视频,或者通过逐帧深度估计和点云渲染来实现。虽然这个版本可能存在一些时序不连贯和视觉瑕疵,但为第二阶段奠定了基础。
第二阶段应用带遮罩的视频微调,利用在现有素材上训练的生成式视频模型来创建真实的运动效果和时序变化。系统引入了时序 LoRA(低秩适应)层来优化模型,使其能够理解和复制锚定视频的具体动态特征,无需重新训练整个模型。同时,空间 LoRA 层确保了画面细节和内容与新的摄像机运动保持一致。这使得生成式视频模型能够在保持原始视频特征运动的同时,完成变焦、平移和倾斜等操作。
尽管 ReCapture 在用户友好的视频处理方面取得了重要进展,但目前仍处于研究阶段,距离商业化应用还有一段距离。值得注意的是,虽然谷歌拥有众多视频 AI 项目,但尚未将其推向市场,其中 Veo 项目可能最接近商用。同样,Meta 最近推出的 Movie-Gen 模型以及 OpenAI 年初发布的 Sora 也都未实现商业化。目前,视频 AI 市场主要由 Runway 等创业公司引领,该公司已于去年夏天推出了最新的 Gen-3Alpha 模型。
ReCapture 技术的出现预示着视频编辑领域的未来发展方向,虽然目前仍处于研究阶段,但其强大的功能和便捷的操作方式,无疑将为视频创作带来更多可能性。期待这项技术未来能够早日成熟并投入商业应用,为广大用户带来更加便捷高效的视频编辑体验。