In den letzten Jahren hat sich die KI-Technologie für virtuelle Avatare rasant weiterentwickelt, ihre Interaktivität stellt jedoch immer noch einen wesentlichen Engpass dar, der ihre Anwendung einschränkt. Viele virtuelle KI-Avatare verhalten sich in Gesprächen steif, es fehlt ihnen an Realismus und sie können keine natürliche Interaktion mit Benutzern erreichen. Zu diesem Zweck wurde eine neue Technologie namens INFP ins Leben gerufen. Sie zielt darauf ab, das aktuelle Problem der unzureichenden Interaktion zwischen virtuellen KI-Avataren in Gesprächen zu zweit zu lösen und es virtuellen Charakteren zu ermöglichen, Emotionen und Handlungen während des Gesprächs genauso natürlich und reibungslos auszudrücken wie echte Menschen Konversation völlig verändern.
Vor kurzem hat eine neue Technologie namens INFP (Interactive, Natural, Flash and Person-generic) große Aufmerksamkeit erregt. Diese Technologie zielt darauf ab, das Problem der unzureichenden Interaktion zwischen aktuellen virtuellen KI-Avataren in Gesprächen zu zweit zu lösen, indem sie es virtuellen Charakteren ermöglicht, während Gesprächen wie echte Menschen zu interagieren und ihre Ausdrücke und Bewegungen basierend auf dem Gesprächsinhalt dynamisch anzupassen.
Verabschieden Sie sich von „Stand-up-Comedy“ und begrüßen Sie „Doppelchor“
In der Vergangenheit konnten KI-Avatare nur mit sich selbst sprechen, wie ein „Stand-up-Comedian“-Schauspieler, oder sie konnten nur dumm und ohne Feedback zuhören, wie ein „hölzerner Mensch“. Unsere menschlichen Gespräche sind jedoch nicht so! Wenn wir reden, schauen wir uns an, nicken, runzeln die Stirn und machen von Zeit zu Zeit sogar Witze. Das ist echte Interaktion!
Das Aufkommen von INFP soll diese peinliche Situation völlig verändern! Es ist wie ein „Doppelchor“-Dirigent, der die Ausdrücke und Bewegungen des KI-Avatars basierend auf dem Gesprächsaudio zwischen Ihnen und der KI dynamisch anpassen kann, sodass Sie sich fühlen Es ist, als würde man mit einer echten Person sprechen!
Die „einzigartigen Geheimnisse“ von INFP: zwei Tricks, einer ist unverzichtbar!
Der Grund, warum INFP so leistungsfähig ist, liegt hauptsächlich in seinen zwei „einzigartigen Geheimnissen“:
Bewegungsbasierte Kopfimitation:
Wie ein „Meister der Aktionsimitation“ wird es zunächst menschliche Ausdrücke und Bewegungen aus einer Vielzahl realer Konversationsvideos lernen und diese komplexen Verhaltensweisen in „Aktionscodes“ verdichten.
Um die Bewegungen realistischer zu gestalten, wird auch den beiden „Ausdrücken“ Augen und Mund besondere Aufmerksamkeit geschenkt, so als ob man sie in einer „Nahaufnahme“ darstellen würde.
Außerdem werden wichtige Gesichtspunkte zur Unterstützung bei der Generierung von Mimik verwendet, um die Genauigkeit und Natürlichkeit der Bewegungen sicherzustellen.
Dann wendet es diese „Aktionscodes“ auf einen statischen Avatar an und macht den Avatar sofort „lebendig“, genau wie durch Zauberei!
Audiogeführte Bewegungserzeugung:
Dieser „Generator“ ist noch leistungsfähiger. Er kann den Gesprächsklang zwischen Ihnen und der KI verstehen, genau wie ein Meister, der „den Standort anhand des Tons identifizieren kann“.
Es analysiert, wer im Audio spricht und wer zuhört, und passt dann den Status des KI-Avatars dynamisch an, sodass dieser frei zwischen „Sprechen“ und „Zuhören“ wechseln kann, ohne die Rollen manuell wechseln zu müssen.
Es ist außerdem mit zwei „Speicherbänken“ ausgestattet, die verschiedene Aktionen beim „Sprechen“ bzw. „Hören“ speichern, genau wie zwei „Schatzkästen“, um jederzeit die am besten geeigneten Aktionen zu extrahieren.
Es kann auch die Stimmung und Haltung des KI-Avatars an Ihren Stimmstil anpassen, wodurch das Gespräch lebendiger und interessanter wird.
Schließlich wird auch eine Technologie namens „Diffusionsmodell“ verwendet, um diese Bewegungen in flüssige und natürliche Animationen umzuwandeln, sodass Sie keine Verzögerung spüren.
DyConv: Ein riesiger Konversationsdatensatz voller „Klatsch“!
Um INFP, die „Super-KI“, zu trainieren, haben die Forscher außerdem extra einen sehr großen Konversationsdatensatz namens DyConv gesammelt!
Es gibt mehr als 200 Stunden Gesprächsvideos in diesem Datensatz. Die darin enthaltenen Personen kommen aus der ganzen Welt und auch der Inhalt der Gespräche ist einfach ein „Klatsch-Konzentrationslager“.
Die Videoqualität des DyConv-Datensatzes ist sehr hoch und stellt sicher, dass das Gesicht jedes Einzelnen deutlich sichtbar ist.
Die Forscher verwendeten außerdem das fortschrittlichste Sprachtrennungsmodell, um die Stimme jeder Person separat zu extrahieren, um das KI-Lernen zu erleichtern.
INFPs „Achtzehn Kampfkünste“: Man kann nicht nur sprechen, sondern auch...
INFP kann seine Talente nicht nur in Gesprächen zu zweit zeigen, sondern auch in anderen Szenarien glänzen:
„Listening Head Generation“-Modus: Es kann entsprechende Ausdrücke und Aktionen basierend auf dem, was die andere Partei sagt, machen, genau wie ein guter Schüler, der „aufmerksam zuhört“.
„Talking Head Generation“-Modus: Damit kann der Avatar realistische Mundformen basierend auf Audio erstellen, genau wie ein „Bauchredner“-Meister.
Um die Leistungsfähigkeit von INFP zu beweisen, führten Forscher zahlreiche Experimente durch und die Ergebnisse zeigten:
In verschiedenen Indikatoren hat INFP andere ähnliche Methoden wie Videoqualität, Lippensynchronisation und Aktionsvielfalt übertroffen und hervorragende Ergebnisse erzielt.
Bezüglich der Benutzererfahrung stimmten die Teilnehmer auch darin überein, dass das von INFP generierte Video natürlicher und lebendiger ist und besser zum Ton passt.
Die Forscher führten auch Ablationsexperimente durch, um zu beweisen, dass jedes Modul in INFP essentiell ist.
Projektadresse: https://grisoon.github.io/INFP/
Der Durchbruch in der INFP-Technologie hat revolutionäre Veränderungen im interaktiven Erlebnis virtueller KI-Avatare mit sich gebracht und es näher an reale menschliche Interaktionsmethoden herangeführt. Es wird erwartet, dass die INFP-Technologie in Zukunft in vielen Bereichen wie virtuellen Assistenten, Online-Bildung und Unterhaltung weit verbreitet sein wird, um Benutzern ein natürlicheres, lebendigeres und immersiveres interaktives Erlebnis zu bieten.