Media2Face é um modelo inovador de geração de animação facial 3D multimodal que pode gerar animações de expressão facial realistas com base em entradas multimodais, como fala. Este modelo constrói um conjunto de dados em grande escala denominado M2F-D, introduzindo ativos faciais parametrizados neurais generalizados (GNPFA) e usando-os para extrair informações de expressão e pose de cabeça de alta qualidade de dados de vídeo massivos. Finalmente, a equipe de pesquisa propôs um modelo de difusão Media2Face baseado no espaço latente GNPFA, alcançando geração de animação facial co-linguagem de alta qualidade e alcançando novos patamares em termos de fidelidade e expressividade. Permite aos usuários personalizar as animações geradas, como ajustar raiva, felicidade e outras expressões emocionais.
Media2Face é um modelo de produto que oferece suporte a voz e outras orientações multimodais para gerar expressões faciais dinâmicas em 3D. Ao fazer ajustes personalizados mais detalhados na animação facial gerada, também permite que os usuários façam ajustes personalizados mais detalhados na animação facial gerada, como raiva, felicidade, etc. A equipe de pesquisa respondeu ao desafio por meio de três etapas principais, primeiro introduzindo ativos faciais parametrizados neurais generalizados, depois usando o GNPFA para extrair expressões de alta qualidade e poses precisas da cabeça de um grande número de vídeos para formar o conjunto de dados M2F-D e, finalmente, propôs Media2Face, um modelo de difusão latente baseado no espaço GNPFA para geração de animação facial em co-linguagem. No geral, o Media2Face alcançou resultados impressionantes no campo da animação facial co-linguagem, abrindo novas possibilidades para a fidelidade e expressividade da síntese da animação facial.O surgimento do modelo Media2Face trouxe novos avanços tecnológicos para os campos de produção de animação 3D, realidade virtual e interação humano-computador. Suas capacidades de geração eficientes e opções de personalização altamente personalizadas anunciam um futuro mais realista e expressivo. . Esta tecnologia possui uma ampla gama de cenários de aplicação no futuro e merece atenção contínua no seu desenvolvimento.