Media2Face是一個突破性的多模態3D面部動畫生成模型,它能夠根據語音等多模態輸入生成逼真的面部表情動畫。該模型透過引入廣義神經參數化臉部資產(GNPFA),並利用其從海量視訊資料中提取高品質表情和頭部姿態訊息,建構了名為M2F-D的大規模資料集。最終,研究團隊基於GNPFA潛在空間,提出了一個擴散模型Media2Face,實現了高品質的共語面部動畫生成,在逼真度和表現力上都達到了新的高度。 其允許用戶對生成的動畫進行個人化調整,例如調整憤怒、快樂等情緒表達。
Media2Face是一項支援語音等多模態引導生成3D面部動態表情的產品大模型。透過對生成的臉部動畫進行更細緻的個人化調整,同時允許使用者對生成的臉部動畫進行更細緻的個人化調整,如憤怒、快樂等。研究團隊透過三個關鍵步驟來應對挑戰,首先引入了廣義神經參數化臉部資產,然後利用GNPFA從大量影片中提取高品質的表情和準確的頭部姿勢,形成了M2F-D資料集,最後提出了Media2Face,這是一個基於GNPFA潛在空間的擴散模型,用於共語面部動畫生成。整體上Media2Face在共語面部動畫領域取得了令人矚目的成果,為面部動畫合成的逼真度和表現力開闢了新的可能性。Media2Face模型的出現,為3D動畫製作、虛擬實境以及人機互動等領域帶來了新的技術突破,其高效的生成能力和高度的個人化自訂選項,預示著未來更逼真、更具表現力的數字角色的到來。 這項技術在未來應用場景廣泛,值得持續關注其發展。