Media2Face は、音声などのマルチモーダル入力に基づいてリアルな表情アニメーションを生成できる、画期的なマルチモーダル 3D 顔アニメーション生成モデルです。このモデルは、Generalized Neural Parameterized Facial Assets (GNPFA) を導入し、それを使用して大量のビデオ データから高品質の表情と頭部の姿勢情報を抽出することにより、M2F-D と呼ばれる大規模なデータ セットを構築します。最後に、研究チームはGNPFA潜在空間に基づく拡散モデルMedia2Faceを提案し、高品質の共通言語フェイシャルアニメーション生成を実現し、忠実度と表現力の面で新たな高みに到達しました。 ユーザーは、怒り、幸福、その他の感情表現を調整するなど、生成されたアニメーションをカスタマイズできます。
Media2Face は、音声やその他のマルチモーダル ガイダンスをサポートし、3D 顔のダイナミックな表現を生成する製品モデルです。生成された顔のアニメーションに対してより詳細な個人的な調整を行うことにより、ユーザーは、生成された顔のアニメーションに対して、怒り、幸福など、より詳細な個人的な調整を行うこともできます。研究チームは 3 つの重要なステップを通じてこの課題に対応しました。まず、一般化された神経パラメータ化された顔アセットを導入し、次に GNPFA を使用して多数のビデオから高品質の表情と正確な頭のポーズを抽出して M2F-D データセットを形成し、最後に提案しました。 Media2Face、共通言語顔アニメーション生成のための GNPFA 潜在空間ベースの拡散モデル。全体として、Media2Face は、共通言語によるフェイシャル アニメーションの分野で目覚ましい成果を上げ、フェイシャル アニメーション合成の忠実性と表現力に新たな可能性をもたらしました。Media2Face モデルの登場は、3D アニメーション制作、仮想現実、および人間とコンピューターのインタラクションの分野に新たな技術的進歩をもたらし、その効率的な生成機能と高度にパーソナライズされたカスタマイズ オプションは、より現実的で表現力豊かなデジタル キャラクターの到来を告げます。 。 この技術は将来的に幅広い応用シナリオがあり、その発展に引き続き注目する価値があります。