DisPose : saisissez des vidéos d'action et des personnages de référence pour faire danser les personnages de la même manière.

Auteur：Eve Cole Date de mise à jour：2024-12-28 08:00:02

Ces dernières années, la technologie de l’IA s’est développée rapidement, notamment dans le domaine de la production d’animation. La génération de vidéos dynamiques basées sur des images statiques est devenue un point chaud de la recherche. Les méthodes traditionnelles de production d’animation reposent souvent sur des informations éparses sur la posture du squelette, ce qui entraîne des effets d’animation qui ne sont pas suffisamment précis. Afin de résoudre ce problème, de nouvelles technologies apparaissent constamment, s'efforçant de réaliser une animation d'image de personnage plus précise et contrôlable.

Ces dernières années, avec le développement rapide de l’intelligence artificielle et de la technologie de vision par ordinateur, l’interaction entre les humains et les ordinateurs est devenue de plus en plus vivante et expressive. Dans le domaine de la production d’animation notamment, la manière de générer des vidéos dynamiques basées sur des images statiques a toujours été un sujet de recherche brûlant.

Récemment, une nouvelle technologie appelée « DisPose » est apparue, qui permet d'obtenir des effets d'animation d'images de personnages plus contrôlables grâce à un guidage de posture découplé. En termes simples, DisPose permet la saisie de vidéos d'action et de personnages de référence, permettant aux personnages de référence de réaliser les actions de la vidéo.

Le cœur de la technologie DisPose réside dans sa reconstruction et son utilisation des informations de pose traditionnelles clairsemées. Les méthodes traditionnelles reposent principalement sur un guidage de pose de squelette clairsemé, qui ne peut souvent pas fournir des signaux de contrôle suffisants lors de la génération dynamique de vidéos, ce qui entraîne des effets d'animation insuffisamment détaillés. Pour combler cette lacune, DisPose propose une toute nouvelle méthode permettant de générer des mouvements plus détaillés en convertissant des informations de pose clairsemées en conseils sur le terrain de sport et en correspondances de points clés.

Plus précisément, DisPose calcule d'abord des champs de mouvement clairsemés pour les poses squelettiques et introduit une méthode de génération de champ de mouvement dense basée sur des images de référence. Cette approche fournit non seulement des signaux de mouvement au niveau régional, mais maintient également l'universalité d'un contrôle d'attitude clairsemé. Dans le même temps, DisPose extrait également les caractéristiques de diffusion correspondant aux points clés de la pose de l'image de référence, puis transfère ces caractéristiques à la pose cible en calculant des correspondances de points multi-échelles pour améliorer la cohérence de l'apparence.

Afin de permettre à cette technologie innovante de s'intégrer en douceur dans les modèles existants, les chercheurs ont également proposé une architecture ControlNet hybride enfichable. Cette architecture améliore la qualité et la cohérence des vidéos générées sans modifier les paramètres du modèle existant. Grâce à de nombreuses expériences qualitatives et quantitatives, DisPose démontre des avantages significatifs par rapport aux technologies actuelles et annonce l'orientation future de la technologie de production d'animation.

DisPose améliore l'expressivité et la contrôlabilité de l'animation de portraits en optimisant l'utilisation des informations sur la posture. Ces progrès revêtent non seulement une grande importance pour la recherche universitaire, mais apportent également de nouvelles possibilités à la future industrie de l'animation.

Entrée du projet : https://lihxxx.github.io/DisPose/

Points forts:

DisPose est une nouvelle technologie d'animation de portrait qui permet une génération dynamique plus précise grâce à un guidage de pose découplé.

Cette technologie convertit les informations rares sur la posture en guidage du champ de mouvement et en correspondance de points clés, fournissant ainsi des signaux de mouvement détaillés.

L'architecture hybride ControlNet proposée par les chercheurs peut améliorer efficacement la qualité et la cohérence des vidéos générées.

L'émergence de la technologie DisPose marque une nouvelle étape dans la technologie de production d'animation. Sa méthode efficace de traitement des informations gestuelles et son architecture hybride innovante ControlNet fournissent un support technique puissant pour une production d'animations de portraits plus réalistes et plus détaillées à l'avenir, et apportent également des possibilités illimitées à l'industrie de l'animation. Nous sommes impatients de voir DisPose jouer un rôle plus important dans la production d’animation à l’avenir.