Die Nanyang Technological University in Singapur hat eine erstaunliche KI-Technologie entwickelt – SOLAMI, die lebensechte virtuelle 3D-Charaktere erstellen und Echtzeitinteraktion in einer VR-Umgebung ermöglichen kann. Diese Technologie durchbricht die starren Beschränkungen traditioneller KI-Charaktere. Virtuelle Charaktere können nicht nur Ihre Stimme und Bewegungsanweisungen verstehen, sondern auch in natürlichen und reibungslosen Gesprächen, beim Tanzen und sogar beim Boxen miteinander interagieren. Dies stellt einen großen Fortschritt für die KI-Technologie in Bereichen wie virtuelle Realität, soziale Unterhaltung sowie Bildung und Ausbildung dar und bringt revolutionäre Veränderungen für zukünftige interaktive Unterhaltungs- und Lernmethoden mit sich.
Ein Forschungsteam der Nanyang Technological University in Singapur hat kürzlich eine KI-Technologie namens SOLAMI vorgestellt, die lebendige virtuelle 3D-Charaktere erstellen kann, die nicht nur in Echtzeit mit Ihnen in der VR-Welt interagieren können, sondern auch Ihre Stimme und Bewegungen verstehen, um Sie zu begleiten. Es wird gechattet, getanzt und sogar geboxt. Das ist einfach ein Segen für Spiele, virtuelle soziale Interaktion und Singles!
SOLAMI ist ein End-to-End-Modellierungsframework für soziale Vision-Sprache-Aktion (VLA), das Deep-Learning-Technologie nutzt, um die Stimme und Aktionen des Benutzers in eine „Sprache“ umzuwandeln, die der virtuelle Charakter verstehen kann, und entsprechende Sprach- und Aktionsreaktionen zu generieren . Das Sprechen in menschlicher Sprache bedeutet, dass es Ihre Stimme und Bewegungen in eine Sprache übersetzen kann, die die KI verstehen kann, und dann die virtuelle Figur entsprechend reagieren lässt, genau wie eine reale Person, natürlich und reibungslos, und sich vom starren und mechanischen Gefühl der Vergangenheit verabschiedet KI-Charaktere.
Um diesen KI-„Sozialmeister“ auszubilden, gab sich das Forschungsteam ebenfalls große Mühe.
Sie erstellten einen synthetischen Datensatz namens SynMSI, der riesige Mengen an Dialog-, Bewegungs- und Sprachdaten enthält. Diese Daten werden nicht zufällig gesammelt, sondern durch sorgfältige Gestaltung und Verarbeitung unter Verwendung vorhandener Aktionsdatenbanken und leistungsstarker Sprachmodelle generiert.
Noch erstaunlicher ist, dass SOLAMI auch mit einer VR-Schnittstelle ausgestattet ist, die es Ihnen ermöglicht, immersiv mit virtuellen Charakteren zu interagieren.
Wenn Sie ein VR-Gerät aufsetzen, können Sie eine virtuelle Figur vor sich stehen sehen, die mit Ihnen chattet und Aktionen ausführt, als ob Sie sich in einer echten sozialen Szene befänden.
Das Forschungsteam stellte fest, dass die Anwendungsaussichten der SOLAMI-Technologie sehr breit gefächert sind und in Zukunft viele Bereiche wie Spiele, virtuelle soziale Netzwerke sowie Bildung und Ausbildung untergraben könnten.
Beispielsweise können NPC-Charaktere im Spiel intelligenter werden und wie echte Menschen mit Ihnen interagieren. Avatare auf virtuellen sozialen Plattformen können personalisierter sein, sodass Sie in der virtuellen Welt sogar gleichgesinnte Freunde finden können Der Lehrer scheint das Lernen lebendiger und interessanter zu machen.
Natürlich befindet sich SOLAMI noch im Forschungsstadium, aber das enorme Potenzial, das es zeigt, hat die Technologiekreise bereits begeistert.
Durch eine Reihe von Experimenten konnte das Forschungsteam beweisen, dass SOLAMI den bestehenden Methoden hinsichtlich Bewegungsqualität, Sprachqualität und Reaktionsgeschwindigkeit überlegen ist. Noch wichtiger ist, dass die Benutzertestergebnisse zeigen, dass alle mit den von SOLAMI erstellten virtuellen Charakteren sehr zufrieden sind. Es scheint, dass die Ära der „KI-Frau/Ehemann“ wirklich naht!
Kern-Highlights der SOLAMI-Technologie:
End-to-End-VLA-Modell: Wandeln Sie die Stimme und Aktionen des Benutzers direkt in die Sprach- und Aktionsreaktionen des virtuellen Charakters um, um ein natürliches und reibungsloses interaktives Erlebnis zu erzielen.
Synthetischer SynMSI-Datensatz: Verwendet vorhandene Aktionsdatensätze und große Sprachmodelle, um automatisch eine große Menge multimodaler Dialogdaten mit mehreren Runden zu generieren und das Problem des Mangels an Trainingsdaten zu lösen.
Immersive VR-Schnittstelle: Benutzer können über VR-Geräte von Angesicht zu Angesicht mit virtuellen Charakteren kommunizieren und ein realistischeres interaktives Erlebnis erleben.
Intelligenter und menschlicher: SOLAMI kann intelligentere und realistischere virtuelle Charaktere erstellen und so das virtuelle interaktive Erlebnis „menschlicher“ machen.
Das Forschungsteam sagte, dass die Anwendungsaussichten der SOLAMI-Technologie sehr breit seien und sie in vielen Bereichen wie Spielen, virtuellen sozialen Netzwerken, Bildung und Ausbildung usw. eingesetzt werden könne. In Spielen kann SOLAMI beispielsweise intelligentere und realistischere NPC-Charaktere erstellen, um das Spielerlebnis der Spieler zu verbessern. Bei virtuellen sozialen Interaktionen kann SOLAMI Benutzern dabei helfen, personalisiertere Avatare zu erstellen und das Eintauchen in virtuelle soziale Interaktionen zu verbessern kann lebendigere virtuelle Lehrer schaffen und die Unterrichtseffekte verbessern.
Das Forschungsteam führte außerdem eine Reihe von Experimenten durch und die Ergebnisse zeigten, dass die SOLAMI-Technologie anderen bestehenden Methoden in Bezug auf Aktionsqualität, Sprachqualität und Inferenzverzögerung überlegen ist. Benutzeruntersuchungen zeigen auch, dass Benutzer mit den mit der SOLAMI-Technologie erstellten virtuellen 3D-Charakteren sehr zufrieden sind.
Derzeit befindet sich die SOLAMI-Technologie noch im Forschungsstadium, ihr zukünftiges Entwicklungspotenzial ist jedoch enorm und es wird erwartet, dass sie uns ein intelligenteres und menschlicheres virtuelles interaktives Erlebnis bietet.
Projekthomepage: https://solami-ai.github.io/
Technischer Bericht: https://arxiv.org/abs/2412.00174
Vollständiges Einführungsvideo: https://www.bilibili.com/video/BV1D6zpYHEyc/
Alles in allem zeigt die SOLAMI-Technologie das enorme Potenzial der KI im Bereich der virtuellen Interaktion. Ihre zukünftigen Anwendungsaussichten sind vielversprechend und könnten die Art und Weise, wie wir uns unterhalten, Kontakte knüpfen und lernen, völlig verändern. Warten wir ab, wie diese Technologie die digitale Welt der Zukunft prägen wird.