L'Université technologique de Nanyang à Singapour a développé une technologie d'IA étonnante - SOLAMI, qui peut créer des personnages virtuels 3D réalistes et réaliser une interaction en temps réel dans un environnement VR. Cette technologie brise les limites rigides des personnages virtuels traditionnels. Les personnages virtuels peuvent non seulement comprendre votre voix et vos instructions de mouvement, mais peuvent également interagir les uns avec les autres dans des conversations naturelles et fluides, danser et même boxer. Cela marque un grand pas en avant pour la technologie de l’IA dans des domaines tels que la réalité virtuelle, le divertissement social, ainsi que l’éducation et la formation, apportant des changements révolutionnaires aux futures méthodes de divertissement et d’apprentissage interactifs.
Une équipe de recherche de l'Université technologique de Nanyang à Singapour a récemment dévoilé une technologie d'IA appelée SOLAMI, capable de créer des personnages virtuels 3D vifs qui peuvent non seulement interagir avec vous en temps réel dans le monde VR, mais également comprendre votre voix et vos mouvements pour vous accompagner. Vous discutez, dansez et même boxez ! C'est tout simplement une bénédiction pour les jeux, la socialisation virtuelle et les célibataires !
SOLAMI est un cadre de modélisation de vision-langage-action sociale (VLA) de bout en bout qui utilise une technologie d'apprentissage profond pour convertir la voix et les actions de l'utilisateur en un « langage » que le personnage virtuel peut comprendre, et génère les réponses vocales et d'action correspondantes. . Parler en langage humain signifie qu'il peut traduire votre voix et vos mouvements dans un langage que l'IA peut comprendre, puis laisser le personnage virtuel réagir en conséquence, tout comme une personne réelle, naturellement et en douceur, disant adieu à la sensation rigide et mécanique du précédent. Personnages IA.
Afin de former ce « maître social » de l’IA, l’équipe de recherche s’est également donné beaucoup de mal.
Ils ont créé un ensemble de données synthétiques appelé SynMSI, qui contient d’énormes quantités de données sur les dialogues, les mouvements et la parole. Ces données ne sont pas collectées de manière fortuite, mais sont générées grâce à une conception et un traitement minutieux à l'aide de bases de données d'actions existantes et de modèles linguistiques puissants.
Ce qui est encore plus étonnant, c'est que SOLAMI est également équipé d'une interface VR, vous permettant d'interagir de manière immersive avec des personnages virtuels.
Lorsque vous installez un appareil VR, vous pouvez voir un personnage virtuel debout devant vous, discutant et effectuant des actions avec vous, comme si vous étiez dans une véritable scène sociale.
L'équipe de recherche a déclaré que les perspectives d'application de la technologie SOLAMI sont très larges et pourraient à l'avenir bouleverser de nombreux domaines tels que les jeux, les réseaux sociaux virtuels, ainsi que l'éducation et la formation.
Par exemple, les personnages PNJ dans les jeux peuvent devenir plus intelligents et interagir avec vous comme de vraies personnes ; les avatars virtuels sur les plateformes sociales virtuelles peuvent être plus personnalisés, vous permettant de trouver des amis partageant les mêmes idées dans le monde virtuel ; l’enseignant semble rendre l’apprentissage plus vivant et plus intéressant.
Bien sûr, SOLAMI en est encore au stade de la recherche, mais l’énorme potentiel qu’il présente a déjà enthousiasmé le cercle technologique.
Grâce à une série d'expériences, l'équipe de recherche a prouvé que SOLAMI est supérieur aux méthodes existantes en termes de qualité de mouvement, de qualité de voix et de vitesse de réponse. Plus important encore, les résultats des tests utilisateurs montrent que tout le monde est très satisfait des personnages virtuels créés par SOLAMI. Il semble que l'ère du « mari/femme IA » arrive vraiment !
Points forts de la technologie SOLAMI :
Modèle VLA de bout en bout : convertissez directement la voix et les actions de l'utilisateur en réponses vocales et d'action du personnage virtuel pour obtenir une expérience interactive naturelle et fluide.
Ensemble de données synthétiques SynMSI : utilise des ensembles de données d'action existants et de grands modèles de langage pour générer automatiquement une grande quantité de données de dialogue multimodal à plusieurs tours afin de résoudre le problème du manque de données de formation.
Interface VR immersive : les utilisateurs peuvent communiquer face à face avec des personnages virtuels via un équipement VR et vivre une expérience interactive plus réaliste.
Plus intelligent et plus humain : SOLAMI peut créer des personnages virtuels plus intelligents et plus réalistes, rendant l'expérience interactive virtuelle plus « humaine ».
L'équipe de recherche a déclaré que les perspectives d'application de la technologie SOLAMI sont très larges et qu'elle peut être utilisée dans de nombreux domaines tels que les jeux, les réseaux sociaux virtuels, l'éducation et la formation, etc. Par exemple, dans les jeux, SOLAMI peut créer des personnages PNJ plus intelligents et plus réalistes pour améliorer l'expérience de jeu des joueurs ; dans les interactions sociales virtuelles, SOLAMI peut aider les utilisateurs à créer des avatars plus personnalisés et à améliorer l'immersion des interactions sociales virtuelles ; peut créer des enseignants virtuels plus vivants et améliorer les effets pédagogiques.
L'équipe de recherche a également mené une série d'expériences et les résultats ont montré que la technologie SOLAMI est supérieure aux autres méthodes existantes en termes de qualité d'action, de qualité de voix et de délai d'inférence. Les recherches menées auprès des utilisateurs montrent également que les utilisateurs sont très satisfaits des personnages virtuels 3D créés avec la technologie SOLAMI.
À l'heure actuelle, la technologie SOLAMI est encore au stade de la recherche, mais son potentiel de développement futur est énorme et elle devrait nous apporter une expérience interactive virtuelle plus intelligente et plus humaine.
Page d'accueil du projet : https://solami-ai.github.io/
Rapport technique : https://arxiv.org/abs/2412.00174
Vidéo d'introduction complète : https://www.bilibili.com/video/BV1D6zpYHEyc/
Dans l’ensemble, la technologie SOLAMI montre l’énorme potentiel de l’IA dans le domaine de l’interaction virtuelle. Ses perspectives d’application futures méritent d’être attendues et pourraient changer complètement la façon dont nous nous divertissons, socialisons et apprenons. Attendons de voir comment cette technologie façonnera le monde numérique du futur.