La Universidad Tecnológica de Nanyang en Singapur ha desarrollado una asombrosa tecnología de inteligencia artificial: SOLAMI, que puede crear personajes virtuales 3D realistas y lograr interacción en tiempo real en un entorno de realidad virtual. Esta tecnología rompe las rígidas limitaciones de los personajes tradicionales de IA. Los personajes virtuales no solo pueden entender su voz y sus instrucciones de movimiento, sino que también pueden interactuar entre sí en conversaciones, bailes e incluso boxeo naturales y fluidos. Esto marca un gran avance para la tecnología de inteligencia artificial en campos como la realidad virtual, el entretenimiento social y la educación y la capacitación, trayendo cambios revolucionarios a los futuros métodos de aprendizaje y entretenimiento interactivo.
Un equipo de investigación de la Universidad Tecnológica de Nanyang en Singapur presentó recientemente una tecnología de inteligencia artificial llamada SOLAMI, que puede crear vívidos personajes virtuales en 3D que no solo pueden interactuar contigo en tiempo real en el mundo de la realidad virtual, sino que también comprenden tu voz y tus movimientos para acompañarte. ¡Chateas, bailas e incluso boxeas! ¡Esto es simplemente una bendición para los juegos, la interacción social virtual y los solteros!
SOLAMI es un marco de modelado social de visión, lenguaje y acción (VLA) de extremo a extremo que utiliza tecnología de aprendizaje profundo para convertir la voz y las acciones del usuario en un "lenguaje" que el personaje virtual pueda comprender y genera las correspondientes respuestas de voz y acción. . Hablar en lenguaje humano significa que puede traducir su voz y sus movimientos a un lenguaje que la IA pueda entender, y luego dejar que el personaje virtual reaccione en consecuencia, como una persona real, de forma natural y fluida, despidiéndose de la sensación rígida y mecánica del pasado. Personajes de IA.
Para entrenar a este "maestro social" de IA, el equipo de investigación también se esforzó mucho.
Crearon un conjunto de datos sintético llamado SynMSI, que contiene cantidades masivas de datos de diálogo, movimiento y voz. Estos datos no se recopilan casualmente, sino que se generan mediante un diseño y procesamiento cuidadosos utilizando bases de datos de acciones existentes y potentes modelos de lenguaje.
Lo que es aún más sorprendente es que SOLAMI también está equipado con una interfaz de realidad virtual, que te permite interactuar con personajes virtuales de forma inmersiva.
Cuando te pones un dispositivo de realidad virtual, puedes ver un personaje virtual parado frente a ti, charlando y realizando acciones contigo, como si estuvieras en una escena social real.
El equipo de investigación afirmó que las perspectivas de aplicación de la tecnología SOLAMI son muy amplias y pueden subvertir muchos campos como los juegos, las redes sociales virtuales y la educación y la formación en el futuro.
Por ejemplo, los personajes NPC en el juego pueden volverse más inteligentes e interactuar contigo más como personas reales; los avatares en las plataformas sociales virtuales pueden ser más personalizados, permitiéndote encontrar amigos con ideas afines en el mundo virtual; incluso puedes crear uno virtual; El maestro parece hacer que el aprendizaje sea más animado e interesante.
Por supuesto, SOLAMI todavía se encuentra en la fase de investigación, pero el enorme potencial que muestra ya ha entusiasmado al círculo tecnológico.
A través de una serie de experimentos, el equipo de investigación demostró que SOLAMI es superior a los métodos existentes en términos de calidad de movimiento, calidad de voz y velocidad de respuesta. Más importante aún, los resultados de las pruebas de usuarios muestran que todos están muy satisfechos con los personajes virtuales creados por SOLAMI. ¡Parece que la era de la "esposa/marido con IA" realmente está llegando!
Aspectos destacados de la tecnología SOLAMI:
Modelo VLA de extremo a extremo: convierta la voz y las acciones del usuario directamente en las respuestas de voz y acción del personaje virtual para lograr una experiencia interactiva natural y fluida.
Conjunto de datos sintéticos SynMSI: utiliza conjuntos de datos de acción existentes y grandes modelos de lenguaje para generar automáticamente una gran cantidad de datos de diálogo multimodal de múltiples rondas para resolver el problema de la falta de datos de entrenamiento.
Interfaz de realidad virtual inmersiva: los usuarios pueden comunicarse cara a cara con personajes virtuales a través de equipos de realidad virtual y experimentar una experiencia interactiva más realista.
Más inteligente y más humano: SOLAMI puede crear personajes virtuales más inteligentes y realistas, haciendo que la experiencia interactiva virtual sea más "humana".
El equipo de investigación dijo que las perspectivas de aplicación de la tecnología SOLAMI son muy amplias y se puede utilizar en muchos campos, como juegos, redes sociales virtuales, educación y formación, etc. Por ejemplo, en los juegos, SOLAMI puede crear personajes NPC más inteligentes y realistas para mejorar la experiencia de juego de los jugadores; en las interacciones sociales virtuales, SOLAMI puede ayudar a los usuarios a crear avatares más personalizados y mejorar la inmersión de las interacciones sociales virtuales; puede crear profesores virtuales más vívidos y mejorar los efectos de la enseñanza.
El equipo de investigación también llevó a cabo una serie de experimentos y los resultados mostraron que la tecnología SOLAMI es superior a otros métodos existentes en términos de calidad de acción, calidad de voz y retraso de inferencia. La investigación de usuarios también muestra que los usuarios están muy satisfechos con los personajes virtuales 3D creados con la tecnología SOLAMI.
En la actualidad, la tecnología SOLAMI aún se encuentra en etapa de investigación, pero su potencial de desarrollo futuro es enorme y se espera que nos brinde una experiencia virtual interactiva más inteligente y humana.
Página de inicio del proyecto: https://solami-ai.github.io/
Informe técnico: https://arxiv.org/abs/2412.00174
Vídeo de introducción completo: https://www.bilibili.com/video/BV1D6zpYHEyc/
En definitiva, la tecnología SOLAMI muestra el enorme potencial de la IA en el campo de la interacción virtual. Vale la pena esperar sus futuras perspectivas de aplicación y pueden cambiar por completo la forma en que nos entretenemos, socializamos y aprendemos. Esperemos y veamos cómo esta tecnología dará forma al mundo digital del futuro.