La technologie d’animation d’images audio a fait des progrès significatifs ces dernières années, mais les problèmes de complexité et d’efficacité des modèles existants limitent son application. Pour résoudre ces problèmes, les chercheurs ont développé une nouvelle technologie appelée JoyVASA, qui améliore considérablement la qualité, l'efficacité et la portée des applications de l'animation d'images audio grâce à une conception innovante en deux étapes. JoyVASA est non seulement capable de générer des vidéos animées plus longues, mais aussi d'animer des portraits humains et des visages d'animaux, et prend en charge plusieurs langues.
Récemment, des chercheurs ont proposé une nouvelle technologie appelée JoyVASA, qui vise à améliorer les effets d'animation d'images audio. Avec le développement continu des modèles d'apprentissage profond et de diffusion, l'animation de portraits audio a fait des progrès significatifs en termes de qualité vidéo et de précision de la synchronisation labiale. Cependant, la complexité des modèles existants augmente l'efficacité de la formation et de l'inférence, tout en limitant également la durée et la continuité inter-images des vidéos.
JoyVASA adopte une conception en deux étapes. La première étape introduit un cadre de représentation faciale découplé pour séparer les expressions faciales dynamiques des représentations faciales statiques en trois dimensions.
Cette séparation permet au système de combiner n'importe quel modèle facial 3D statique avec des séquences d'action dynamiques pour générer des vidéos animées plus longues. Dans la deuxième étape, l’équipe de recherche a formé un transformateur de diffusion capable de générer des séquences d’action directement à partir de signaux audio, un processus indépendant de l’identité du personnage. Enfin, le générateur basé sur la formation de la première étape prend en entrée la représentation faciale 3D et la séquence d'action générée pour restituer des effets d'animation de haute qualité.
Notamment, JoyVASA ne se limite pas à l’animation de portraits humains, mais peut également animer de manière transparente des visages d’animaux. Ce modèle est formé sur un ensemble de données mixtes, combinant des données privées chinoises et des données publiques anglaises, montrant de bonnes capacités de support multilingue. Les résultats expérimentaux prouvent l'efficacité de cette méthode. Les recherches futures se concentreront sur l'amélioration des performances en temps réel et l'affinement du contrôle de l'expression afin d'étendre davantage l'application de ce cadre dans l'animation d'images.
L'émergence de JoyVASA marque une avancée importante dans la technologie d'animation audio, favorisant de nouvelles possibilités dans le domaine de l'animation.
Entrée du projet : https://jdh-algo.github.io/JoyVASA/
Souligner:
La technologie JoyVASA permet une génération de vidéos animées plus longues en dissociant les expressions faciales des modèles 3D.
Cette technologie peut générer des séquences d’action basées sur des signaux audio et possède la double capacité d’animation de personnages et d’animaux.
JoyVASA est formé sur des ensembles de données en chinois et en anglais, dispose d'un support multilingue et fournit des services aux utilisateurs du monde entier.
L'innovation de la technologie JoyVASA réside dans sa conception découplée et son utilisation efficace des signaux audio, qui offrent une nouvelle direction pour le développement futur de la technologie d'animation d'images pilotée par l'audio. Sa prise en charge multilingue et ses capacités efficaces de génération d'animations en font également une application largement utilisée. perspectives. On s'attend à ce que JoyVASA puisse encore améliorer les performances en temps réel et parvenir à un contrôle d'expression plus sophistiqué à l'avenir.