Ces dernières années, la technologie des avatars virtuels IA s’est développée rapidement, mais son interactivité reste un goulot d’étranglement majeur limitant son application. De nombreux avatars virtuels IA se comportent de manière rigide dans les conversations, manquent de réalisme et ne peuvent pas établir d’interaction naturelle avec les utilisateurs. À cette fin, une nouvelle technologie appelée INFP a vu le jour. Elle vise à résoudre le problème de l'interaction insuffisante entre les avatars virtuels de l'IA actuels dans les conversations à deux, permettant aux personnages virtuels d'exprimer leurs émotions et leurs actions aussi naturellement et facilement que de vraies personnes au cours de la conversation. conversation. Changez complètement l’expérience d’interaction homme-machine.
Récemment, une nouvelle technologie appelée INFP (Interactive, Natural, Flash and Person-generic) a attiré une large attention. Cette technologie vise à résoudre le problème de l'interaction insuffisante entre les avatars virtuels de l'IA actuels dans les conversations à deux, permettant aux personnages virtuels d'interagir comme de vraies personnes pendant les conversations, en ajustant dynamiquement leurs expressions et leurs mouvements en fonction du contenu de la conversation.
Dites adieu au « stand-up comedie » et bienvenue au « double refrain »
Dans le passé, les avatars de l'IA ne pouvaient parler qu'à eux-mêmes, comme un acteur « humoriste », ou ils ne pouvaient qu'écouter bêtement sans aucun retour, comme une « personne en bois ». Cependant, nos conversations humaines ne sont pas comme ça ! Lorsque nous parlons, nous nous regardons, hochons la tête, fronçons les sourcils et faisons même des blagues de temps en temps. C'est la vraie interaction !
L'émergence d'INFP est de changer complètement cette situation embarrassante ! C'est comme un chef d'orchestre « double chœur », qui peut ajuster dynamiquement les expressions et les mouvements de l'avatar de l'IA en fonction de l'audio de la conversation entre vous et l'IA, vous faisant ressentir c'est comme parler à une vraie personne !
Les « secrets uniques » de l’INFP : deux astuces, une indispensable !
La raison pour laquelle INFP est si puissant est principalement due à ses deux « secrets uniques » :
Imitation de tête basée sur le mouvement :
Il apprendra d'abord les expressions et les mouvements humains à partir d'un grand nombre de vidéos de conversations réelles, tel un « maître de l'imitation d'action », compressant ces comportements complexes en « codes d'action ».
Afin de rendre les mouvements plus réalistes, il portera également une attention particulière aux deux « expressions » des yeux et de la bouche, tout comme en leur donnant des « gros plans ».
Il utilisera également les points clés du visage pour aider à la génération d’expressions afin de garantir la précision et le naturel des mouvements.
Ensuite, il applique ces « codes d'action » à un avatar statique, rendant l'avatar « vivant » instantanément, comme par magie !
Génération de mouvements audio-guidés :
Ce « générateur » est encore plus puissant. Il peut comprendre l'audio de la conversation entre vous et l'IA, tout comme un maître qui peut « identifier l'emplacement en écoutant le son ».
Il analysera qui parle et qui écoute dans l'audio, puis ajustera dynamiquement le statut de l'avatar de l'IA afin qu'il puisse basculer librement entre « parler » et « écouter » sans changer manuellement de rôle.
Il est également équipé de deux « banques de mémoire » qui stockent diverses actions respectivement en « parlant » et en « écoutant », tout comme deux « boîtes à trésors » pour extraire à tout moment les actions les plus appropriées.
Il peut également ajuster l'ambiance et l'attitude de l'avatar IA en fonction de votre style de voix, rendant la conversation plus vivante et intéressante.
Enfin, il utilise également une technologie appelée « modèle de diffusion » pour transformer ces mouvements en animations fluides et naturelles afin que vous ne ressentiez aucun décalage.
DyConv : Un énorme ensemble de données de conversation plein de « potins » !
Afin d'entraîner INFP, la « super IA », les chercheurs ont également spécialement collecté un très grand ensemble de données de conversation appelé DyConv !
Il y a plus de 200 heures de vidéos de conversation dans cet ensemble de données. Les gens viennent du monde entier, et le contenu des conversations est également diversifié. Il s'agit simplement d'un « camp de concentration de potins ».
La qualité vidéo de l’ensemble de données DyConv est très élevée, garantissant que le visage de chacun est clairement visible.
Les chercheurs ont également utilisé le modèle de séparation de la parole le plus avancé pour extraire la voix de chaque personne séparément afin de faciliter l'apprentissage de l'IA.
"Dix-huit arts martiaux" de l'INFP : non seulement vous pouvez parler, mais vous pouvez aussi...
INFP peut non seulement montrer ses talents dans des conversations à deux, mais aussi briller dans d'autres scénarios :
Mode « Génération de tête d'écoute » : il peut créer des expressions et des actions correspondantes en fonction de ce que dit l'autre partie, tout comme un bon élève qui « écoute attentivement ».
Mode « Talking Head Generation » : il peut permettre à l'avatar de créer des formes de bouche réalistes basées sur l'audio, tout comme un maître « ventriloque ».
Afin de prouver la puissance de l'INFP, les chercheurs ont mené un grand nombre d'expériences et les résultats ont montré :
Dans divers indicateurs, INFP a écrasé d'autres méthodes similaires, telles que la qualité vidéo, la synchronisation labiale et la diversité des actions, et a obtenu d'excellents résultats.
En termes d'expérience utilisateur, les participants ont également convenu que la vidéo générée par INFP est plus naturelle et plus vivante, et correspond mieux à l'audio.
Les chercheurs ont également mené des expériences d’ablation pour prouver que chaque module d’INFP est essentiel.
Adresse du projet : https://grisoon.github.io/INFP/
La percée de la technologie INFP a apporté des changements révolutionnaires à l’expérience interactive des avatars virtuels de l’IA, la rendant plus proche des méthodes d’interaction humaine réelle. À l'avenir, la technologie INFP devrait être largement utilisée dans de nombreux domaines tels que les assistants virtuels, l'éducation en ligne et le divertissement, offrant aux utilisateurs une expérience interactive plus naturelle, vivante et immersive.