Media2Face는 음성과 같은 다중 모드 입력을 기반으로 사실적인 표정 애니메이션을 생성할 수 있는 획기적인 다중 모드 3D 얼굴 애니메이션 생성 모델입니다. 이 모델은 GNPFA(Generalized Neural Parameterized Facial Assets)를 도입하고 이를 사용하여 대규모 영상 데이터에서 고품질 표정 및 머리 자세 정보를 추출하여 M2F-D라는 대규모 데이터 세트를 구축합니다. 마지막으로 연구팀은 GNPFA 잠재 공간을 기반으로 하는 확산 모델 Media2Face를 제안하여 고품질 공동 언어 얼굴 애니메이션 생성을 달성하고 충실도와 표현력 측면에서 새로운 차원에 도달했습니다. 이를 통해 사용자는 분노, 행복 및 기타 감정 표현을 조정하는 등 생성된 애니메이션을 개인화할 수 있습니다.
Media2Face는 음성 및 기타 다중 모드 안내를 지원하여 3D 얼굴 동적 표현을 생성하는 제품 모델입니다. 생성된 얼굴 애니메이션을 보다 세부적으로 개인화하여 조정함으로써 사용자는 생성된 얼굴 애니메이션(예: 분노, 행복 등)을 보다 세부적으로 개인화할 수 있습니다. 연구팀은 먼저 일반화된 신경 매개변수화된 얼굴 자산을 도입한 다음 GNPFA를 사용하여 다수의 비디오에서 고품질 표정과 정확한 머리 자세를 추출하여 M2F-D 데이터세트를 구성하는 세 가지 주요 단계를 통해 과제에 대응했으며, 마지막으로 제안했습니다. Media2Face는 공동 언어 얼굴 애니메이션 생성을 위한 GNPFA 잠재 공간 기반 확산 모델입니다. 전반적으로 Media2Face는 공동 언어 얼굴 애니메이션 분야에서 인상적인 결과를 달성하여 얼굴 애니메이션 합성의 충실도와 표현력에 대한 새로운 가능성을 열었습니다.Media2Face 모델의 출현은 3D 애니메이션 제작, 가상 현실 및 인간-컴퓨터 상호 작용 분야에 새로운 기술 혁신을 가져왔습니다. 효율적인 생성 기능과 고도로 개인화된 사용자 정의 옵션은 더욱 현실적이고 표현력이 풍부한 미래를 예고합니다. . 이 기술은 향후 광범위한 응용 시나리오를 갖고 있으며 개발에 지속적인 관심을 기울일 가치가 있습니다.