Tencent meluncurkan model video Tusheng baru Follow-Your-Pose-v2 untuk menghasilkan video olahraga multi-orang

Penulis：Eve Cole Waktu Pembaruan：2025-01-03 20:00:02

Tim Tencent Hunyuan bekerja sama dengan Universitas Sun Yat-sen dan Universitas Sains dan Teknologi Hong Kong meluncurkan model video Tusheng baru "Follow-Your-Pose-v2", yang mencapai terobosan dalam teknologi pembuatan video dari satu orang ke banyak orang. Model ini dapat menangani foto grup yang terdiri dari beberapa orang dan membuat orang-orang di dalam foto tersebut bergerak dalam video yang dihasilkan secara bersamaan, sehingga secara signifikan meningkatkan efisiensi dan kualitas pembuatan video. Keunggulan teknologinya adalah mendukung pembuatan aksi video multi-orang, memiliki kemampuan generalisasi yang kuat, dapat dilatih dan dihasilkan menggunakan foto/video kehidupan sehari-hari, dan dapat menangani masalah seperti oklusi karakter dengan benar. Model ini mengungguli teknik yang ada pada beberapa kumpulan data, menunjukkan kinerjanya yang kuat dan prospek penerapan yang luas.

Mendukung pembuatan aksi video multi-orang: wujudkan pembuatan aksi video multi-orang dengan alasan yang memakan waktu lebih sedikit.

Kemampuan generalisasi yang kuat: Video berkualitas tinggi dapat dibuat tanpa memandang usia, pakaian, ras, latar belakang yang berantakan, atau kompleksitas tindakan.

Tersedia foto/video kehidupan sehari-hari: Pelatihan dan pembuatan model dapat menggunakan foto atau video kehidupan sehari-hari (termasuk foto) atau video, tanpa mencari gambar/video berkualitas tinggi.

Menangani oklusi karakter dengan benar: Menghadapi masalah tubuh beberapa karakter yang saling menghalangi dalam satu gambar, hal ini dapat menghasilkan gambar oklusi dengan hubungan depan-ke-belakang yang benar.

Teknis pelaksanaan:

Model ini menggunakan "panduan aliran optik" untuk memperkenalkan informasi aliran optik latar belakang, yang dapat menghasilkan animasi latar belakang yang stabil bahkan saat kamera bergetar atau latar belakang tidak stabil.

Melalui "Panduan Peta Inferensi" dan "Panduan Peta Kedalaman", model dapat lebih memahami informasi spasial karakter dalam gambar dan hubungan posisi spasial beberapa karakter, serta secara efektif memecahkan masalah animasi multi-karakter dan oklusi tubuh .

Evaluasi dan bandingkan:

Tim mengusulkan tolok ukur baru Multi-Karakter, yang berisi sekitar 4.000 frame video multi-karakter untuk mengevaluasi efek pembuatan multi-karakter.

Hasil eksperimen menunjukkan bahwa "Ikuti-Pose-Anda-v2" mengungguli yang canggih lebih dari 35% pada dua kumpulan data publik (pidato TikTok dan TED) dan 7 indikator.

Prospek aplikasi:

Teknologi generasi gambar-ke-video memiliki prospek penerapan yang luas di banyak industri seperti produksi konten film, augmented reality, produksi game, dan periklanan.

Informasi tambahan:

Tim Hunyuan Tencent juga mengumumkan perpustakaan akselerasi untuk model grafik Vinsensian open source yang besar (Hunyuan DiT), yang sangat meningkatkan efisiensi penalaran dan mempersingkat waktu pembuatan grafik sebesar 75%.

Ambang batas untuk menggunakan model Hunyuan DiT telah diturunkan. Pengguna dapat memanggil model tersebut di perpustakaan model resmi Hugging Face dengan tiga baris kode.

Alamat makalah: https://arxiv.org/pdf/2406.03035

Halaman proyek: https://top.aibase.com/tool/follow-your-pose

Munculnya model "Follow-Your-Pose-v2" menandai terobosan besar dalam teknologi video Tusheng, dan prospek penerapannya di banyak bidang patut dinantikan. Di masa depan, dengan pengembangan dan peningkatan teknologi yang berkelanjutan, model ini diyakini akan memainkan peran penting dalam lebih banyak skenario dan memberikan pengalaman pembuatan video yang lebih nyaman dan cerdas kepada masyarakat.