ウェン・ワン1,2 、 チウユ・ワン2 、 ケチェン・ジェン2 、 ハオ・オウヤン2 、 ジェカイ・チェン1 、 彪功2 、 ハオ・チェン1 、
沈裕君2 、沈春華1
1中国浙江大学、 2 Ant Group
私たちは、より制御可能でインタラクティブなフレーム補間手法である Framer を提案します。これにより、ユーザーは、選択したキーポイントの軌道をカスタマイズし、制御を強化し、困難なケースに対処することで、2 つの画像間でスムーズに遷移するフレームを生成できます。
提案された手法である Framer は対話型のフレーム補間を提供し、ユーザーが選択したキーポイントの軌道を調整することでトランジションをカスタマイズできるようにします。このアプローチにより、画像変換の曖昧さが軽減され、ローカル モーションのより詳細な制御が可能になり、困難なケース (形状やスタイルが異なるオブジェクトなど) を処理するモデルの能力が向上します。 Framer には、キーポイントを自動的に推定して軌道を調整する「オートパイロット」モードも含まれており、これによりプロセスが簡素化され、動きに自然で時間的に一貫した結果が得られます。
この作業では、大規模な事前トレーニング済みの画像からビデオへの拡散モデル (Stable Video Diffusion) をベース モデルとして利用します。ビデオ補間を容易にするために追加のエンドフレーム コンディショニングが導入され、ユーザー インタラクションのためのポイント軌道制御ブランチが組み込まれています。
Framer は、特に複雑な動きや外観の大幅な変化を伴う場合、視覚的な品質と自然な動きの点で、既存のフレーム補間方法よりも優れた性能を発揮します。 FVD(Fréchet Video Distance)を用いた定量評価は、他の手法と比較して優れた性能を発揮します。ユーザー調査によると、Framer の出力が非常に好まれており、現実的で視覚的に魅力的な結果を生成する際の Framer の有効性が強調されています。
ビデオは空間的に圧縮されていることに注意してください。オリジナルビデオのプロジェクトページを読者に紹介します。
開始画像 | 入力軌跡と補間結果 | 終了画像 |
開始画像 | 入力軌跡と補間結果 | 終了画像 |
開始画像 | 補間結果 | 終了画像 |
開始画像 | 補間結果 | 終了画像 |
開始画像 | 補間結果 | 終了画像 |
開始画像 | 補間結果 | 終了画像 |
私たちのコードが役立つ場合は、論文を引用することを検討してください。
@article { wang2024framer ,
title = { Framer: Interactive Video Interpolation } ,
author = { Wang, Wen and Wang, Qiuyu and Zheng, Kecheng and Ouyang, Hao and Chen, Zhekai and Gong, Biao and Chen, Hao and Shen, Yujun and Shen, Chunhua } ,
journal = { arXiv preprint https://arxiv.org/abs/2410.18978 } ,
year = { 2024 }
}
学術目的での使用の場合、このプロジェクトは 2 条項の BSD ライセンスに基づいてライセンスされています。商用利用の場合はC Shenまでお問い合わせください。