Teknologi animasi gambar audio -drive telah membuat kemajuan yang signifikan dalam beberapa tahun terakhir, tetapi kompleksitas dan efisiensi model yang ada telah membatasi aplikasinya. Untuk menyelesaikan masalah ini, para peneliti telah mengembangkan teknologi baru yang disebut Joyvasa. Joyvasa tidak hanya dapat menghasilkan video animasi yang lebih lama, tetapi juga dapat membuat potret dan hewan animasi, dan mendukung berbagai bahasa.
Baru -baru ini, para peneliti telah mengusulkan teknologi baru yang disebut Joyvasa, yang bertujuan untuk meningkatkan efek animasi gambar dengan drive audio. Dengan pengembangan terus -menerus dari model pembelajaran dan difusi yang mendalam, animasi potret yang didorong oleh audio telah membuat kemajuan yang signifikan dalam akurasi kualitas dan sinkronisasi mulut. Namun, kompleksitas model yang ada meningkatkan efisiensi pelatihan dan penalaran, dan juga membatasi durasi dan kontinuitas antar -kerangka video.
Joyvasa mengadopsi dua tahap desain.
Pemisahan ini memungkinkan sistem untuk menggabungkan model wajah tiga dimensi statis dengan urutan tindakan dinamis untuk menghasilkan video animasi yang lebih lama. Pada tahap kedua, tim peneliti telah melatih konverter difusi yang dapat menghasilkan urutan tindakan langsung dari petunjuk audio. Akhirnya, generator berdasarkan fase pertama pelatihan menggunakan fitur wajah tiga dimensi dan urutan tindakan yang dihasilkan sebagai input untuk memberikan efek animasi berkualitas tinggi.
Perlu dicatat bahwa Joyvasa tidak terbatas pada animasi potret, tetapi juga dapat menghiasi wajah binatang dengan mulus. Model ini dilatih pada dataset hybrid, menggabungkan data pribadi Cina dan data bahasa Inggris publik, menunjukkan kemampuan dukungan multibahasa yang baik. Hasil eksperimen membuktikan keefektifan metode ini.
Munculnya Joyvasa menandai terobosan penting dalam teknologi animasi yang didorong audio, yang telah mempromosikan kemungkinan baru di bidang animasi.
Pintu Masuk Proyek: https://jdh-algo.github.io/joyvasa//
Poin:
Teknologi Joyvasa mencapai generasi video animasi yang lebih lama melalui ekspresi wajah yang dipisahkan dan model tiga dimensi.
Teknologi ini dapat menghasilkan urutan tindakan berdasarkan petunjuk audio, dengan kemampuan ganda karakter dan animasi hewan.
Joyvasa dilatih pada dataset Cina dan Inggris, dengan dukungan multi -bahasa untuk memberikan layanan kepada pengguna global.
Inovasi teknologi Joyvasa adalah bahwa desainnya yang dipisahkan dan penggunaan petunjuk audio yang efisien memberikan arah baru untuk pengembangan teknologi animasi gambar drive audio di masa depan. Menantikan Joyvasa di masa depan dapat lebih meningkatkan kinerja real -time dan mencapai kontrol ekspresi yang lebih baik.