Наньянский технологический университет в Сингапуре разработал потрясающую технологию искусственного интеллекта — SOLAMI, которая позволяет создавать реалистичных виртуальных 3D-персонажей и обеспечивать взаимодействие в реальном времени в среде виртуальной реальности. Эта технология преодолевает жесткие ограничения традиционных персонажей искусственного интеллекта. Виртуальные персонажи могут не только понимать ваш голос и инструкции по движениям, но также могут взаимодействовать друг с другом в естественных и плавных разговорах, танцах и даже боксе. Это знаменует собой большой шаг вперед для технологий искусственного интеллекта в таких областях, как виртуальная реальность, социальные развлечения, а также образование и обучение, что приведет к революционным изменениям в будущих интерактивных методах развлечений и обучения.
Исследовательская группа из Наньянского технологического университета в Сингапуре недавно представила технологию искусственного интеллекта под названием SOLAMI, которая может создавать ярких виртуальных 3D-персонажей, которые могут не только взаимодействовать с вами в реальном времени в мире виртуальной реальности, но также понимать ваш голос и движения, чтобы сопровождать вас. Общаетесь, танцуете и даже боксируете. Это просто наслаждение для игр, виртуального общения и одиночества!
SOLAMI — это комплексная среда моделирования социального видения-языка-действия (VLA), которая использует технологию глубокого обучения для преобразования голоса и действий пользователя в «язык», понятный виртуальному персонажу, и генерирует соответствующие голосовые реакции и действия. . Разговор на человеческом языке означает, что он может перевести ваш голос и движения на язык, понятный ИИ, а затем позволить виртуальному персонажу отреагировать соответствующим образом, как реальный человек, естественно и плавно, прощаясь с жестким и механическим ощущением предыдущего. ИИ-персонажи.
Чтобы обучить этого «социального мастера» ИИ, исследовательская группа также приложила немало усилий.
Они создали синтетический набор данных под названием SynMSI, который содержит огромное количество данных о диалогах, движениях и речи. Эти данные собираются не случайно, а генерируются путем тщательного проектирования и обработки с использованием существующих баз данных действий и мощных языковых моделей.
Что еще более удивительно, так это то, что SOLAMI также оснащен интерфейсом VR, позволяющим вам погружаться в взаимодействие с виртуальными персонажами.
Когда вы надеваете VR-устройство, вы можете видеть виртуального персонажа, стоящего перед вами, разговаривающего и совершающего с вами действия, как если бы вы находились в реальной социальной сцене.
Исследовательская группа заявила, что перспективы применения технологии SOLAMI очень широки и могут в будущем подорвать многие области, такие как игры, виртуальные социальные сети, а также образование и обучение.
Например, NPC-персонажи в играх могут стать более умными и взаимодействовать с вами больше, как настоящие люди; виртуальные аватары на виртуальных социальных платформах могут быть более персонализированными, позволяя вам находить друзей-единомышленников в виртуальном мире, который вы даже можете создать; Учитель делает обучение более живым и интересным.
Конечно, SOLAMI все еще находится на стадии исследований, но огромный потенциал, который он демонстрирует, уже взволновал технологический круг.
Посредством серии экспериментов исследовательская группа доказала, что SOLAMI превосходит существующие методы с точки зрения качества движения, качества голоса и скорости реакции. Что еще более важно, результаты пользовательских тестов показывают, что все очень довольны виртуальными персонажами, созданными SOLAMI. Кажется, эра «ИИ-жены/мужа» действительно наступает!
Основные особенности технологии SOLAMI:
Комплексная модель VLA: прямое преобразование голоса и действий пользователя в голос и реакции виртуального персонажа для достижения естественного и плавного интерактивного взаимодействия.
Синтетический набор данных SynMSI: использует существующие наборы данных действий и большие языковые модели для автоматического создания большого количества многораундовых мультимодальных диалоговых данных для решения проблемы нехватки обучающих данных.
Иммерсивный интерфейс VR: пользователи могут общаться лицом к лицу с виртуальными персонажами через оборудование VR и испытывать более реалистичный интерактивный опыт.
Умнее и человечнее: SOLAMI может создавать более умных и реалистичных виртуальных персонажей, делая виртуальный интерактивный опыт более «человечным».
Исследовательская группа заявила, что перспективы применения технологии SOLAMI очень широки, и ее можно использовать во многих областях, таких как игры, виртуальные социальные сети, образование и обучение и т. д. Например, в играх SOLAMI может создавать более умных и реалистичных персонажей NPC, чтобы улучшить игровой процесс игроков; в виртуальных социальных взаимодействиях SOLAMI может помочь пользователям создавать более персонализированные аватары и повысить погружение в виртуальные социальные взаимодействия. В сфере образования и обучения SOLAMI; может создать более ярких виртуальных учителей и улучшить эффективность обучения.
Исследовательская группа также провела серию экспериментов, результаты которых показали, что технология SOLAMI превосходит другие существующие методы по качеству действия, качеству голоса и задержке вывода. Исследования пользователей также показывают, что пользователи очень довольны виртуальными 3D-персонажами, созданными с помощью технологии SOLAMI.
В настоящее время технология SOLAMI все еще находится на стадии исследования, но потенциал ее будущего развития огромен, и ожидается, что она принесет нам более разумный и гуманный виртуальный интерактивный опыт.
Домашняя страница проекта: https://solami-ai.github.io/
Технический отчет: https://arxiv.org/abs/2412.00174.
Полное вводное видео: https://www.bilibili.com/video/BV1D6zpYHEyc/
В целом, технология SOLAMI демонстрирует огромный потенциал ИИ в области виртуального взаимодействия. Перспективы ее применения в будущем заслуживают внимания и могут полностью изменить то, как мы развлекаемся, общаемся и учимся. Давайте подождем и посмотрим, как эта технология будет формировать цифровой мир будущего.