オーディオ駆動の画像アニメーション技術は近年大幅に進歩しましたが、既存のモデルの複雑さと効率の問題により、その応用は制限されています。これらの問題を解決するために、研究者らは JoyVASA と呼ばれる新技術を開発しました。この技術は、革新的な 2 段階の設計により、オーディオ駆動の画像アニメーションの品質、効率、適用範囲を大幅に向上させます。 JoyVASA は、より長いアニメーション ビデオを生成できるだけでなく、人間のポートレートや動物の顔もアニメーション化し、複数の言語をサポートします。
最近、研究者らは、オーディオ主導の画像アニメーション効果を向上させることを目的とした、JoyVASA と呼ばれる新しいテクノロジーを提案しました。ディープラーニングと拡散モデルの継続的な開発により、オーディオ主導のポートレートアニメーションはビデオ品質とリップシンクの精度において大幅な進歩を遂げました。ただし、既存のモデルの複雑さにより、トレーニングと推論の効率が向上する一方で、ビデオの継続時間とフレーム間の連続性も制限されます。
JoyVASA は 2 段階の設計を採用しています。最初の段階では、動的な顔の表情を静的な 3 次元の顔の表現から分離するための分離された顔の表現フレームワークが導入されています。
この分離により、システムは静的な 3D 顔モデルと動的なアクション シーケンスを組み合わせて、より長いアニメーション ビデオを生成できるようになります。第 2 段階では、研究チームは、音声キューからアクション シーケンスを直接生成できる拡散トランスフォーマーをトレーニングしました。これは、キャラクターのアイデンティティとは独立したプロセスです。最後に、第 1 段階のトレーニングに基づくジェネレーターは、3D 顔表現と生成されたアクション シーケンスを入力として受け取り、高品質のアニメーション効果をレンダリングします。
特に、JoyVASA は人間のポートレートのアニメーションに限定されず、動物の顔をシームレスにアニメーション化することもできます。このモデルは、中国語のプライベート データと英語のパブリック データを組み合わせた混合データ セットでトレーニングされており、優れた多言語サポート機能を示しています。実験結果は、この方法の有効性を証明しており、今後の研究は、画像アニメーションにおけるこのフレームワークの適用をさらに拡大するために、リアルタイム性能の向上と表現制御の改良に焦点を当てていきます。
JoyVASA の出現は、オーディオ駆動アニメーション技術における重要な進歩を示し、アニメーション分野における新たな可能性を促進します。
プロジェクト入口: https://jdh-algo.github.io/JoyVASA/
ハイライト:
JoyVASA テクノロジーは、3D モデルから顔の表情を分離することで、より長いアニメーション ビデオの生成を可能にします。
このテクノロジーは、音声キューに基づいてアクション シーケンスを生成でき、キャラクターと動物のアニメーションの二重の機能を備えています。
JoyVASA は中国語と英語のデータセットでトレーニングされており、多言語をサポートしており、世界中のユーザーにサービスを提供しています。
JoyVASA テクノロジーの革新性は、その分離された設計とオーディオ キューの効率的な使用にあり、これは、オーディオ駆動型の画像アニメーション テクノロジーの将来の開発に新たな方向性をもたらし、その多言語サポートと効率的なアニメーション生成機能により、広く使用されるアプリケーションとなっています。見通し。今後、JoyVASAはリアルタイム性をさらに向上させ、より高度な表現制御を実現できることが期待されます。