ByteDance hat ein neues KI-System, INFP, auf den Markt gebracht, das es statischen Porträtfotos ermöglicht, über Audioeingaben zu „sprechen“ und zu reagieren. Im Gegensatz zur herkömmlichen Technologie muss INFP die Rollen nicht manuell festlegen. Das System kann automatisch anhand der Konversation urteilen, was die Effizienz und den Komfort erheblich verbessert. Seine Kerntechnologie liegt in den beiden Schritten „bewegungsbasierte Kopfimitation“ und „audiogesteuerte Bewegungsgenerierung“. Durch die Analyse von Gesichtsausdrücken, Kopfbewegungen und Audioeingaben in Gesprächen werden natürliche und sanfte Bewegungsmuster erzeugt, um statische Bilder entstehen zu lassen zum Leben. Um INFP zu trainieren, hat ByteDance außerdem einen DyConv-Datensatz erstellt, der mehr als 200 Stunden echte Konversationsvideos enthält, um eine qualitativ hochwertige Ausgabe des Systems sicherzustellen.
Der Arbeitsablauf des INFP besteht aus zwei Hauptschritten. Im ersten Schritt, „bewegungsbasierte Kopfmimikry“ genannt, extrahiert das System Details aus dem Video, indem es die Mimik und Kopfbewegungen von Personen während Gesprächen analysiert. Diese Bewegungsdaten werden in ein Format umgewandelt, das in nachfolgenden Animationen verwendet werden kann, sodass Standbilder die Bewegung der ursprünglichen Figur widerspiegeln.
Der zweite Schritt ist die „audiogeführte Bewegungsgenerierung“, bei der das System auf Basis der Audioeingabe natürliche Bewegungsmuster generiert. Das Forschungsteam entwickelte einen „Bewegungsführer“, der den Ton beider Gesprächspartner analysiert, um Bewegungsmuster für das Sprechen und Zuhören zu erstellen. Eine KI-Komponente namens Diffusion Transformer optimiert diese Muster dann schrittweise, was zu sanften und realistischen Bewegungen führt, die perfekt zum Audioinhalt passen.
Um das System effektiv zu trainieren, hat das Forschungsteam außerdem einen Dialogdatensatz namens DyConv erstellt, der mehr als 200 Stunden echte Dialogvideos sammelt. Im Vergleich zu bestehenden Konversationsdatenbanken wie ViCo und RealTalk bietet DyConv einzigartige Vorteile im emotionalen Ausdruck und in der Videoqualität.
Laut ByteDance übertrifft INFP bestehende Tools in mehreren Schlüsselbereichen, insbesondere bei der Anpassung der Lippenbewegungen an die Sprache, der Erhaltung individueller Gesichtszüge und der Erzeugung vielfältiger natürlicher Bewegungen. Ebenso gut schnitt das System bei der Erstellung von Videos ab, bei denen nur der Gesprächspartner zu hören war.
Obwohl INFP derzeit nur die Audioeingabe unterstützt, prüft das Forschungsteam die Möglichkeit, das System auf Bilder und Text auszudehnen. Ziel ist es, realistische Animationen des gesamten Körpers der Figur zu erstellen. Angesichts der Tatsache, dass diese Art von Technologie jedoch zur Erstellung gefälschter Videos und zur Verbreitung von Fehlinformationen verwendet werden könnte, plant das Forschungsteam, die Nutzung der Kerntechnologie auf Forschungseinrichtungen zu beschränken, ähnlich wie Microsofts Management seines fortschrittlichen Systems zum Klonen von Stimmen.
Diese Technologie ist Teil der umfassenderen KI-Strategie von ByteDance. Basierend auf seinen beliebten Anwendungen TikTok und CapCut verfügt ByteDance über eine breite innovative KI-Anwendungsplattform.
Projekteingang: https://grisoon.github.io/INFP/
Höhepunkte:
INFP kann es statischen Porträts ermöglichen, über Audio zu „sprechen“ und die Dialogrolle automatisch zu bestimmen.
Das System funktioniert in zwei Schritten: Erstens extrahiert es Bewegungsdetails in menschlichen Gesprächen und zweitens wandelt es den Ton in natürliche Bewegungsmuster um.
Der DyConv-Datensatz von ByteDance enthält mehr als 200 Stunden hochwertige Konversationsvideos, um die Systemleistung zu verbessern.
Die Einführung des INFP-Systems zeigt die Innovationskraft von ByteDance im Bereich der künstlichen Intelligenz. Das zukünftige Entwicklungspotenzial ist enorm, aber auch potenzielle ethische Risiken müssen sorgfältig behandelt werden. Die Weiterentwicklung der Technik sollte sich stets an gesellschaftlichen Interessen orientieren und sicherstellen, dass sie zum Nutzen der Menschheit eingesetzt wird.