Editor Downcodes melaporkan: Universitas Wuhan, Tim Kecerdasan Buatan Jiutian Seluler China, dan Universitas Duke Kunshan berkolaborasi untuk membuat kumpulan data pengenalan speaker audio dan video berukuran besar menjadi sumber terbuka VoxBlink2 berdasarkan data YouTube. Kumpulan data ini berisi lebih dari 110.000 jam data audio dan video, mencakup hampir 10 juta klip audio berkualitas tinggi, dari lebih dari 110.000 pengguna YouTube. Skala ini belum pernah terjadi sebelumnya dan menyediakan sumber daya berharga untuk penelitian di bidang pengenalan suara. Sumber terbuka VoxBlink2 bertujuan untuk mempromosikan pelatihan dan pengembangan model cetak suara besar dan mendorong kemajuan teknologi di bidang ini.
Universitas Wuhan, Tim Kecerdasan Buatan Jiutian Seluler Tiongkok, dan Universitas Duke Kunshan telah melakukan open source lebih dari 110.000 jam kumpulan data pengenalan speaker audio dan video VoxBlink2 berdasarkan data YouTube. Kumpulan data ini berisi 9.904.382 klip audio berkualitas tinggi dan klip video terkait dari 111.284 pengguna di YouTube. Saat ini kumpulan data ini merupakan kumpulan data pengenalan speaker audio dan video terbesar yang tersedia untuk umum. Peluncuran kumpulan data ini bertujuan untuk memperkaya korpus ucapan sumber terbuka dan mendukung pelatihan model cetak suara berukuran besar.
Kumpulan data VoxBlink2 adalah data yang ditambang melalui langkah-langkah berikut:
Persiapan kandidat: Kumpulkan daftar kata kunci multibahasa, ambil video pengguna, dan pilih video dari menit sebelumnya untuk diproses.
Ekstraksi & deteksi wajah: Ekstrak bingkai video dengan kecepatan bingkai tinggi, gunakan MobileNet untuk mendeteksi wajah, dan pastikan trek video hanya berisi satu speaker.
Pengenalan wajah: Pengenal wajah terlatih mengenali bingkai demi bingkai untuk memastikan bahwa klip audio dan video berasal dari orang yang sama.
Deteksi speaker aktif: Menggunakan rangkaian gerakan bibir dan audio, detektor speaker aktif multi-modal mengeluarkan segmen vokal, dan deteksi aliasing menghilangkan segmen multi-speaker.
Untuk meningkatkan keakuratan data, langkah bypass pengenal wajah bawaan juga diperkenalkan untuk meningkatkan akurasi dari 72% menjadi 92% melalui ekstraksi wajah kasar, verifikasi wajah, pengambilan sampel wajah, dan pelatihan.
VoxBlink2 juga membuka model cetak suara bersumber terbuka dengan ukuran berbeda, termasuk model konvolusi 2D berdasarkan ResNet dan model temporal berdasarkan ECAPA-TDNN, serta model sangat besar ResNet293 berdasarkan Simple Attention Module. Model ini dapat mencapai EER sebesar 0,17% dan minDCF sebesar 0,006% setelah pasca-pemrosesan pada kumpulan data Vox1-O.
Situs web kumpulan data : https://VoxBlink2.github.io
Metode pengunduhan kumpulan data : https://github.com/VoxBlink2/ScriptsForVoxBlink2
File dan model meta: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
Alamat makalah : https://arxiv.org/abs/2407.11510
Singkatnya, kumpulan data VoxBlink2 yang bersifat open source memberikan dorongan yang kuat untuk penelitian di bidang pengenalan suara dan pengenalan cetak suara, dan kami menantikan perannya yang lebih besar dalam penerapan di masa depan. Editor Downcodes akan terus memperhatikan pengembangan selanjutnya dan penerapan kumpulan data ini.