Kerangka kerja sinkronisasi bibir LatentSync terbaru yang dirilis oleh ByteDance menggunakan model difusi laten bersyarat audio berdasarkan Difusi Stabil untuk mencapai efek sinkronisasi bibir yang lebih akurat dan efisien. Berbeda dari metode sebelumnya, LatentSync mengadopsi pendekatan ujung ke ujung untuk secara langsung memodelkan hubungan kompleks antara audio dan penglihatan tanpa memerlukan representasi gerakan perantara, sehingga secara signifikan meningkatkan efisiensi pemrosesan dan akurasi sinkronisasi. Kerangka kerja ini secara cerdik menggunakan Whisper untuk penyematan audio dan menggabungkannya dengan mekanisme TREPA untuk meningkatkan konsistensi temporal, memastikan bahwa video keluaran mempertahankan koherensi temporal sambil mempertahankan akurasi sinkronisasi bibir.
Baru-baru ini, ByteDance merilis kerangka sinkronisasi bibir baru yang disebut LatentSync, yang bertujuan menggunakan model difusi laten kondisi audio untuk mencapai sinkronisasi bibir yang lebih akurat. Kerangka kerja ini didasarkan pada Difusi Stabil dan dioptimalkan untuk konsistensi waktu.
Tidak seperti metode sebelumnya yang didasarkan pada difusi spasial piksel atau pembuatan dua tahap, LatentSync mengadopsi pendekatan ujung ke ujung tanpa memerlukan representasi gerakan perantara dan dapat secara langsung memodelkan hubungan audio-visual yang kompleks.
Dalam kerangka LatentSync, Whisper pertama kali digunakan untuk mengubah spektogram audio menjadi penyematan audio dan diintegrasikan ke dalam model U-Net melalui lapisan perhatian silang. Kerangka kerja ini melakukan penggabungan bingkai referensi dan bingkai topeng di tingkat saluran dengan variabel laten kebisingan sebagai masukan ke U-Net.
Selama pelatihan, pendekatan satu langkah digunakan untuk memperkirakan variabel laten yang bersih dari kebisingan prediksi dan kemudian mendekode untuk menghasilkan frame yang bersih. Pada saat yang sama, model ini memperkenalkan mekanisme Temporal REPresentation Alignment (TREPA) untuk meningkatkan konsistensi temporal dan memastikan bahwa video yang dihasilkan dapat mempertahankan koherensi temporal sekaligus menjaga akurasi sinkronisasi bibir.
Untuk mendemonstrasikan keefektifan teknologi ini, proyek ini menyediakan serangkaian video sampel, yang menampilkan video asli dan video yang disinkronkan secara bibir. Melalui contoh, pengguna secara intuitif dapat merasakan kemajuan signifikan LatentSync dalam sinkronisasi bibir video.
Video asli:
Video keluaran:
Selain itu, proyek ini juga berencana untuk membuat kode inferensi dan pos pemeriksaan menjadi sumber terbuka untuk memfasilitasi pengguna dalam pelatihan dan pengujian. Bagi pengguna yang ingin mencoba inferensi, cukup unduh file bobot model yang diperlukan dan Anda siap berangkat. Proses pemrosesan data yang lengkap juga telah dirancang, mencakup setiap langkah mulai dari pemrosesan file video hingga penyelarasan wajah, memastikan pengguna dapat memulai dengan mudah.
Pintu masuk proyek model: https://github.com/bytedance/LatentSync
Highlight:
LatentSync adalah kerangka sinkronisasi ujung ke port berdasarkan model difusi laten bersyarat audio tanpa memerlukan representasi gerakan perantara.
Kerangka kerja ini menggunakan Whisper untuk mengubah spektogram audio menjadi embeddings, yang meningkatkan akurasi model dan konsistensi temporal selama sinkronisasi bibir.
Proyek ini menyediakan serangkaian video sampel, dan berencana untuk membuka kode sumber terbuka dan proses pemrosesan data untuk memfasilitasi penggunaan dan pelatihan pengguna.
Sumber terbuka dan kemudahan penggunaan LatentSync akan mendorong pengembangan lebih lanjut dan penerapan teknologi sinkronisasi bibir, membawa kemungkinan baru di bidang pengeditan video dan pembuatan konten. Menantikan pembaruan selanjutnya dari proyek ini, yang akan membawa lebih banyak kejutan.