Bytedance meluncurkan Omnihuman: menghasilkan video dinamis seluruh tubuh yang realistis dari foto tunggal - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-06 06:32:02

Byte mengalahkan peluncuran sistem AI baru Omnihuman, yang dapat menghasilkan video seluruh tubuh yang realistis berdasarkan foto tunggal untuk menunjukkan pidato karakter, nyanyian dan tindakan alami. Teknologi ini mengintegrasikan berbagai input seperti teks, audio dan gerakan manusia, dan mengadopsi metode pelatihan "kondisi penuh" untuk belajar dari data besar. Munculnya Omnihuman menunjukkan bahwa bidang hiburan dan komunikasi digital akan mengantarkan perubahan baru, membawa kemungkinan tak terbatas untuk pembuatan video, produksi konten pendidikan, dan komunikasi digital.

Omnihuman mampu menghasilkan video seluruh tubuh untuk menunjukkan gerakan dan dinamika karakter ketika mereka berbicara, melampaui model AI yang hanya dapat mensimulasikan wajah atau tubuh bagian atas. Inti dari teknologi ini adalah menggabungkan berbagai input seperti teks, audio, dan gerakan manusia.

Tim peneliti menunjukkan bahwa Omnihuman telah menunjukkan kemajuan yang signifikan setelah lebih dari 18.700 jam pelatihan data video manusia. Dengan memperkenalkan berbagai sinyal bersyarat (seperti teks, audio dan postur), teknologi ini tidak hanya meningkatkan kualitas pembuatan video, tetapi juga secara efektif mengurangi limbah data.

Para peneliti yang disebutkan dalam sebuah makalah yang diterbitkan dalam Arxiv bahwa meskipun teknologi akhir -ke -end -end animasi manusia telah membuat kemajuan yang signifikan dalam beberapa tahun terakhir, metode yang ada masih memiliki keterbatasan dalam memperluas skala aplikasi.

Omnihuman memiliki berbagai potensi aplikasi dan dapat digunakan untuk membuat video ucapan, menunjukkan pertunjukan instrumental, dll. Setelah pengujian, teknologi ini lebih baik daripada sistem yang ada dalam berbagai tolok ukur kualitas, menunjukkan kinerjanya yang sangat baik. Perkembangan ini telah muncul dalam konteks meningkatnya persaingan antara teknologi generasi video AI, dan perusahaan seperti Google, Meta dan Microsoft juga secara aktif mengejar teknologi serupa.

Namun, meskipun Omnihuman membawa kemungkinan perubahan produksi hiburan, pembuatan konten pendidikan, dan komunikasi digital, itu juga membangkitkan kekhawatiran tentang potensi penyalahgunaan media sintetis. Tim peneliti akan mempresentasikan hasil penelitian mereka pada konferensi visi komputer yang akan datang, meskipun waktu dan pertemuan tertentu belum diumumkan.

Tesis: https://arxiv.org/pdf/2502.01061

Poin:

Omnihuman adalah jenis AI baru yang dapat mengubah foto tunggal menjadi video seluruh tubuh yang realistis.

Setelah 18.700 jam pelatihan data video manusia, teknologi ini menggabungkan berbagai sinyal input untuk meningkatkan efek penghasil.

Meskipun ada potensi aplikasi yang luas, itu juga membangkitkan kekhawatiran tentang kemungkinan media sintetis.

Terobosan Teknologi Omnihuman telah menetapkan tolok ukur baru untuk bidang pembuatan video AI, tetapi pada saat yang sama, ia juga perlu memperhatikan risiko etika potensial. digunakan secara wajar dan menghindari dampak negatif. Menantikan lebih banyak aplikasi dan hasil penelitian tentang Omnihuman di masa depan.