Media2Face est un modèle révolutionnaire de génération d'animations faciales 3D multimodales qui peut générer des animations d'expressions faciales réalistes basées sur des entrées multimodales telles que la parole. Ce modèle construit un ensemble de données à grande échelle nommé M2F-D en introduisant des actifs faciaux paramétrés neuronaux généralisés (GNPFA) et en l'utilisant pour extraire des informations d'expression et de pose de tête de haute qualité à partir de données vidéo massives. Enfin, l’équipe de recherche a proposé un modèle de diffusion Media2Face basé sur l’espace latent GNPFA, permettant une génération d’animation faciale co-langage de haute qualité et atteignant de nouveaux sommets en termes de fidélité et d’expressivité. Il permet aux utilisateurs de personnaliser les animations générées, telles que l'ajustement de la colère, du bonheur et d'autres expressions émotionnelles.
Media2Face est un modèle de produit qui prend en charge la voix et d'autres conseils multimodaux pour générer des expressions dynamiques faciales 3D. En apportant des ajustements personnalisés plus détaillés à l'animation faciale générée, il permet également aux utilisateurs d'effectuer des ajustements personnalisés plus détaillés à l'animation faciale générée, comme la colère, le bonheur, etc. L'équipe de recherche a relevé le défi en trois étapes clés : d'abord en introduisant des actifs faciaux paramétrés neuronaux généralisés, puis en utilisant GNPFA pour extraire des expressions de haute qualité et des poses de tête précises à partir d'un grand nombre de vidéos pour former l'ensemble de données M2F-D, et enfin proposé Media2Face, un modèle de diffusion spatiale latente GNPFA pour la génération d'animations faciales en co-langage. Dans l'ensemble, Media2Face a obtenu des résultats impressionnants dans le domaine de l'animation faciale en co-langage, ouvrant de nouvelles possibilités pour la fidélité et l'expressivité de la synthèse d'animation faciale.L'émergence du modèle Media2Face a apporté de nouvelles avancées technologiques dans les domaines de la production d'animation 3D, de la réalité virtuelle et de l'interaction homme-machine. Ses capacités de génération efficaces et ses options de personnalisation hautement personnalisées annoncent un avenir plus réaliste et plus expressif. . Cette technologie présente un large éventail de scénarios d’application à l’avenir et mérite une attention continue lors de son développement.