Le projet EmoTalk3D a réalisé des progrès décisifs dans le domaine de l'intelligence artificielle. Son cœur réside dans la synthèse réussie d'avatars parlants 3D haute fidélité et riches en émotions. Ce projet résout les problèmes de la technologie existante en matière de cohérence multi-vues et d'insuffisance d'expression émotionnelle. Le cadre peut prédire avec précision des séquences géométriques 3D, synthétiser l'apparence d'un avatar 3D sur la base d'une représentation gaussienne 4D et, finalement, réaliser une animation d'avatar parlant en vue libre, où même les expressions et les rides subtiles peuvent être présentées de manière réaliste.
Il est entendu que l'équipe de recherche du projet EmoTalk3D a proposé une nouvelle méthode de synthèse pour combler les lacunes de la technologie actuelle des avatars parlants 3D en termes de cohérence multi-vues et d'expression émotionnelle. Cette approche permet non seulement d'améliorer la synchronisation labiale et la qualité du rendu, mais permet également une expression émotionnelle contrôlable dans les avatars parlants générés.
L'équipe de recherche a conçu un cadre de cartographie « de la parole à la géométrie et à l'apparence ». Le framework prédit d'abord des séquences géométriques 3D fidèles à partir de caractéristiques audio, puis synthétise l'apparence d'une tête parlante 3D représentée par une gaussienne 4D basée sur ces géométries. Dans ce processus, l'apparence est ensuite décomposée en composants gaussiens canoniques et dynamiques, qui sont fusionnés grâce à l'apprentissage à partir de vidéos multi-vues pour restituer une animation d'avatar parlant en vue libre.
Il convient de mentionner que l'équipe de recherche du projet EmoTalk3D a également réussi à résoudre les difficultés des méthodes précédentes pour capturer les détails dynamiques du visage, tels que la présentation des rides et des expressions subtiles. Les résultats expérimentaux montrent que cette méthode présente des avantages significatifs dans la génération d’avatars parlants 3D haute fidélité et contrôlables émotionnellement, tout en présentant une meilleure qualité de rendu et une meilleure stabilité dans la génération du mouvement des lèvres.
Actuellement, le code et les ensembles de données du projet EmoTalk3D ont été publiés à l'URL HTTPS désignée pour référence et utilisation par les chercheurs et développeurs du monde entier. Cette avancée technologique innovante injectera sans aucun doute une nouvelle vitalité dans le développement du domaine des avatars parlants 3D et devrait être utilisée à l'avenir dans de nombreux domaines tels que la réalité virtuelle, la réalité augmentée et la production cinématographique et télévisuelle.
Le succès du projet EmoTalk3D a apporté de nouvelles possibilités à la production de personnages numériques 3D. Sa technologie d'avatar 3D émotionnel haute fidélité apportera des changements révolutionnaires dans les domaines de la réalité virtuelle, de la réalité augmentée et de la production cinématographique et télévisuelle. À l’avenir, nous pouvons nous attendre à l’émergence d’un plus grand nombre de produits et d’applications basés sur la technologie EmoTalk3D, offrant aux utilisateurs une expérience plus immersive.