Byte Schlagen starten Sie ein neues KI -System Omnihuman, das realistische Ganzkörpervideos erzeugen kann, die auf einzelnen Fotos basieren, um die Reden der Charaktere, das Gesang und die natürlichen Aktionen anzuzeigen. Diese Technologie integriert eine Vielzahl von Inputs wie Text, Audio und menschliche Bewegungen und übernimmt die Trainingsmethode "Vollständiger Zustand", um aus massiven Daten zu lernen. Die Entstehung von Omnihuman zeigt, dass das Gebiet der digitalen Unterhaltung und Kommunikation neue Veränderungen einleiten und unbegrenzte Möglichkeiten für die Videoerstellung, Bildungsinhalte und digitale Kommunikation einbringen wird.
Omnihuman kann Ganzkörpervideos generieren, um die Gesten und Dynamik von Charakteren zu zeigen, wenn sie sprechen, und übertreffen die KI-Modelle, die nur Gesicht oder Oberkörper simulieren können. Der Kern dieser Technologie ist, dass sie eine Vielzahl von Eingaben wie Text, Audio und menschliche Bewegungen kombiniert.
Das Forschungsteam wies darauf hin, dass Omnihuman nach mehr als 18.700 Stunden des menschlichen Videodatentrainings erhebliche Fortschritte erzielt hat. Durch die Einführung verschiedener bedingter Signale (wie Text, Audio und Haltung) verbessert diese Technologie nicht nur die Qualität der Videogenerierung, sondern reduziert auch den Datenabfall effektiv.
Forscher, die in einem in ARXIV veröffentlichten Artikel erwähnt wurden, dass die vorhandenen Methoden zwar in den letzten Jahren erhebliche Fortschritte erzielt haben, obwohl die Technologie der menschlichen Animation in den letzten Jahren erhebliche Fortschritte erzielt hat, die vorhandenen Methoden jedoch weiterhin Einschränkungen bei der Erweiterung der Anwendungsskala haben.
Omnihuman hat eine breite Palette an Anwendungspotenzial und kann verwendet werden, um Sprachvideos zu erstellen, instrumentelle Leistungen usw. zu demonstrieren, usw. Nach dem Testen ist diese Technologie besser als das vorhandene System in mehreren Qualitätsbenchmarks und zeigt ihre hervorragende Leistung. Diese Entwicklung trat im Zusammenhang mit zunehmender Konkurrenz zwischen der Technologie der AI -Videogenerierung auf, und Unternehmen wie Google, Meta und Microsoft verfolgen auch ähnliche Technologien aktiv.
Obwohl Omnihuman die Möglichkeit von Veränderungen in der Unterhaltungsproduktion, der Erstellung von Bildungsinhalten und der digitalen Kommunikation bringt, hat es auch Bedenken hinsichtlich des potenziellen Missbrauchs synthetischer Medien hervorgerufen. Das Forschungsteam wird seine Forschungsergebnisse auf einer bevorstehenden Computer Vision -Konferenz präsentieren, obwohl die spezifische Zeit und das Treffen noch nicht bekannt gegeben wurden.
These: https://arxiv.org/pdf/2502.01061
Punkte:
Omnihuman ist eine neue Art von KI, die einzelne Fotos in realistische Ganzkörpervideos umwandeln kann.
Nach 18.700 Stunden menschlichem Video -Datentraining kombiniert diese Technologie eine Vielzahl von Input -Signalen, um den Erzeugungseffekt zu verbessern.
Trotz umfangreicher Anwendungspotenzial hat es auch Bedenken hinsichtlich der Möglichkeit von synthetischen Medien hervorgerufen.
Der Durchbruch der Omnihuman -Technologie hat neue Benchmarks für den Bereich der AI -Videogenerierung festgelegt, aber gleichzeitig muss sie auch auf seine potenziellen ethischen Risiken achten. vernünftig verwendet und negative Auswirkungen vermeiden. Ich freue mich auf weitere Anwendungen und Forschungsergebnisse über Omnihuman in der Zukunft.