A Universidade Tecnológica de Nanyang, em Cingapura, desenvolveu uma incrível tecnologia de IA - SOLAMI, que pode criar personagens virtuais 3D realistas e alcançar interação em tempo real em um ambiente VR. Esta tecnologia rompe as rígidas limitações dos personagens virtuais tradicionais, que podem não apenas entender sua voz e instruções de movimento, mas também interagir uns com os outros em conversas naturais e suaves, dançando e até boxeando. Isto marca um grande avanço para a tecnologia de IA em áreas como realidade virtual, entretenimento social e educação e formação, trazendo mudanças revolucionárias aos futuros métodos interativos de entretenimento e aprendizagem.
Uma equipe de pesquisa da Universidade Tecnológica de Nanyang, em Cingapura, revelou recentemente uma tecnologia de IA chamada SOLAMI, que pode criar personagens virtuais 3D vívidos que podem não apenas interagir com você em tempo real no mundo VR, mas também compreender sua voz e movimentos para acompanhá-lo. Você conversa, dança e até boxe. Isso é simplesmente uma benção para jogos, interação social virtual e solteiros!
SOLAMI é uma estrutura de modelagem social de visão-linguagem-ação (VLA) de ponta a ponta que usa tecnologia de aprendizagem profunda para converter a voz e as ações do usuário em uma "linguagem" que o personagem virtual pode entender e gera respostas de voz e ação correspondentes . Falar em linguagem humana significa que ele pode traduzir sua voz e movimentos para uma linguagem que a IA possa entender, e então deixar o personagem virtual reagir de acordo, assim como uma pessoa real, de forma natural e suave, dizendo adeus ao sentimento rígido e mecânico do anterior. Personagens de IA.
Para treinar esse “mestre social” da IA, a equipe de pesquisa também se esforçou muito.
Eles criaram um conjunto de dados sintético chamado SynMSI, que contém grandes quantidades de dados de diálogo, movimento e fala. Estes dados não são recolhidos casualmente, mas são gerados através de uma concepção e processamento cuidadosos, utilizando bases de dados de acção existentes e modelos de linguagem poderosos.
O que é ainda mais surpreendente é que SOLAMI também está equipado com uma interface VR, permitindo interagir com personagens virtuais de forma envolvente.
Ao colocar um dispositivo VR, você pode ver um personagem virtual parado na sua frente, conversando e realizando ações com você, como se você estivesse em uma cena social real.
A equipe de pesquisa afirmou que as perspectivas de aplicação da tecnologia SOLAMI são muito amplas e podem subverter muitos campos, como jogos, redes sociais virtuais e educação e treinamento no futuro.
Por exemplo, os personagens NPC no jogo podem se tornar mais inteligentes e interagir com você mais como pessoas reais em plataformas sociais virtuais podem ser mais personalizados, permitindo que você encontre amigos que pensam como você no mundo virtual; professor parece tornar a aprendizagem mais viva e interessante.
É claro que a SOLAMI ainda está em fase de pesquisa, mas o enorme potencial que apresenta já animou o círculo tecnológico.
Através de uma série de experimentos, a equipe de pesquisa provou que o SOLAMI é superior aos métodos existentes em termos de qualidade de movimento, qualidade de voz e velocidade de resposta. Mais importante ainda, os resultados dos testes dos usuários mostram que todos estão muito satisfeitos com os personagens virtuais criados pela SOLAMI. Parece que a era da “esposa/marido AI” está realmente chegando!
Principais destaques da tecnologia SOLAMI:
Modelo VLA ponta a ponta: Converta a voz e as ações do usuário diretamente na voz e nas respostas de ação do personagem virtual para obter uma experiência interativa natural e suave.
Conjunto de dados sintéticos SynMSI: utiliza conjuntos de dados de ação existentes e grandes modelos de linguagem para gerar automaticamente uma grande quantidade de dados de diálogo multimodal multi-rodada para resolver o problema de falta de dados de treinamento.
Interface VR imersiva: os usuários podem se comunicar cara a cara com personagens virtuais por meio de equipamento VR e experimentar uma experiência interativa mais realista.
Mais inteligente e mais humano: SOLAMI pode criar personagens virtuais mais inteligentes e realistas, tornando a experiência interativa virtual mais “humana”.
A equipe de pesquisa disse que as perspectivas de aplicação da tecnologia SOLAMI são muito amplas e ela pode ser usada em muitos campos, como jogos, redes sociais virtuais, educação e treinamento, etc. Por exemplo, nos jogos, a SOLAMI pode criar personagens NPC mais inteligentes e realistas para melhorar a experiência de jogo dos jogadores; nas interações sociais virtuais, a SOLAMI pode ajudar os utilizadores a criar avatares mais personalizados e melhorar a imersão nas interações sociais virtuais; pode criar professores virtuais mais vívidos e melhorar os efeitos de ensino.
A equipe de pesquisa também conduziu uma série de experimentos e os resultados mostraram que a tecnologia SOLAMI é superior a outros métodos existentes em termos de qualidade de ação, qualidade de voz e atraso de inferência. A pesquisa de usuários também mostra que os usuários estão muito satisfeitos com os personagens virtuais 3D construídos com a tecnologia SOLAMI.
Actualmente, a tecnologia SOLAMI ainda está em fase de investigação, mas o seu potencial de desenvolvimento futuro é enorme e espera-se que nos traga uma experiência interactiva virtual mais inteligente e humana.
Página inicial do projeto: https://solami-ai.github.io/
Relatório técnico: https://arxiv.org/abs/2412.00174
Vídeo de introdução completo: https://www.bilibili.com/video/BV1D6zpYHEyc/
Em suma, a tecnologia SOLAMI mostra o enorme potencial da IA no campo da interação virtual. Vale a pena esperar pelas suas futuras perspectivas de aplicação e pode mudar completamente a forma como nos divertimos, socializamos e aprendemos. Vamos esperar e ver como esta tecnologia moldará o mundo digital do futuro.