L'équipe de recherche de l'Université de Toronto et du Vector Institute a récemment publié le modèle CAP4D, une technologie révolutionnaire de génération d'avatars 4D. Il est basé sur le modèle de diffusion multi-vues déformable (MMDM) et peut générer des avatars 4D réalistes et contrôlables en temps réel à partir d'un nombre illimité d'images de référence, améliorant ainsi considérablement l'effet de reconstruction de l'avatar et la présentation des détails. Cette technologie peut non seulement traiter une seule ou un petit nombre d'images de référence, mais peut même générer des avatars à partir d'invites textuelles ou d'œuvres d'art, démontrant sa forte adaptabilité et ses capacités génératives. Sa méthode en deux étapes utilise d'abord MMDM pour générer des images avec différentes perspectives et expressions, puis combine des images de référence pour reconstruire des avatars 4D. Elle prend en charge la combinaison avec des modèles d'édition d'images existants et des modèles d'animation vocale pour obtenir des interactions et des effets dynamiques plus riches. fournit des avatars virtuels. Les applications ouvrent de nouvelles possibilités.
Le modèle adopte une méthode en deux étapes, utilisant d'abord MMDM pour générer des images avec différentes perspectives et expressions, puis combinant ces images générées avec des images de référence pour reconstruire un avatar 4D pouvant être contrôlé en temps réel. Les utilisateurs peuvent saisir n'importe quel nombre d'images de référence, et le modèle utilisera ces informations d'image pour générer des avatars 4D de haute qualité et prendra en charge la combinaison avec des modèles d'animation pilotés par la voix pour obtenir des effets dynamiques pilotés par l'audio. L’émergence du modèle CAP4D marque une avancée significative dans la technologie de génération d’avatars 4D, qui offre de larges perspectives d’application dans des domaines tels que la réalité virtuelle, les jeux et le métaverse.
L'équipe de recherche a démontré une variété d'avatars générés par CAP4D, couvrant une seule image de référence, un petit nombre d'images de référence et le scénario plus difficile consistant à générer des avatars à partir d'invites textuelles ou d'illustrations. En utilisant plusieurs images de référence, le modèle est capable de récupérer des détails et des géométries qui ne peuvent pas être vus dans une seule image, améliorant ainsi les performances de reconstruction. De plus, CAP4D a également la capacité d'être combiné avec des modèles d'édition d'images existants, permettant aux utilisateurs de modifier l'apparence et l'éclairage de l'avatar généré.
Afin d'améliorer encore l'expressivité de l'avatar, CAP4D peut combiner l'avatar 4D généré avec le modèle d'animation vocale pour obtenir des effets d'animation audio. Cela permet à l'avatar non seulement d'afficher des effets visuels statiques, mais également d'interagir dynamiquement avec les utilisateurs via le son, créant ainsi un nouveau champ d'applications d'avatar virtuel.
Points forts:
Le modèle CAP4D peut générer des avatars 4D de haute qualité à partir d'un nombre illimité d'images de référence, en utilisant un flux de travail en deux étapes.
Cette technologie peut générer des avatars sous différentes perspectives, améliorant considérablement l’effet de reconstruction de l’image et la présentation des détails.
CAP4D est combiné avec le modèle d'animation vocale pour réaliser des avatars dynamiques audio et étendre les scénarios d'application des avatars virtuels.
Dans l'ensemble, le modèle CAP4D a réalisé une avancée significative dans le domaine de la génération d'avatars 4D, et ses fonctionnalités efficaces, réalistes et multifonctionnelles ont ouvert de nouvelles possibilités dans des domaines tels que la réalité virtuelle et le divertissement numérique. À l’avenir, cette technologie devrait se développer davantage pour offrir aux utilisateurs une expérience interactive virtuelle plus pratique et plus réaliste.