El conjunto de datos VoxBlink2 es un conjunto de datos de reconocimiento de hablantes a gran escala con más de 100.000 hablantes obtenidos de la plataforma YouTube. Este repositorio proporciona pautas para construir el corpus y los recursos relativos para reproducir los resultados de nuestro artículo. Para obtener más información, consulte citar. Si encuentra útil este repositorio para su investigación, no olvide darnos una estrella.
Comencemos obteniendo los archivos de recursos y descomprimiendo los archivos tar.
tar -zxvf spk_info.tar.gz alquitrán -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
Los siguientes procedimientos muestran cómo construir su VoxBlink2.
Instalar ffmpeg :
sudo apt-get actualización && sudo apt-get actualización sudo apt-get instalar ffmpeg
Instale la biblioteca Python:
instalación de pip -r requisitos.txt
Descargar vídeos
Le ofrecemos dos alternativas para descargar segmentos de video o solo audio. También aprovechamos los subprocesos múltiples para facilitar el proceso de descarga.
Para audiovisuales
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode vídeo
Solo para audio
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio
Recortar audio/vídeos
Para audiovisuales
python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4
Solo para audio
python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4
Proporcionamos scripts simples de nuestro modelo de identificación facial, que se adopta al seleccionar VoxBlink2. Para obtener más información, consulte fid.
Proporcionamos scripts simples para la evaluación del modelo de ASV, simplemente ejecute run_eval.sh
en la carpeta asv
. Para obtener más información, consulte asv.
Proporcionamos scripts simples para la evaluación del modelo de nuestra tarea propuesta: Open-Set Speaker-Identification (OSSI). simplemente ejecute run_eval_ossi.sh
en la carpeta ossi
. Para obtener más información, consulte ossi.
El conjunto de datos tiene la licencia CC BY-NC-SA 4.0 . Esto significa que puede compartir y adaptar el conjunto de datos para fines no comerciales siempre que proporcione la atribución adecuada y distribuya sus contribuciones bajo la misma licencia. Los términos detallados se pueden encontrar aquí.
Nota importante: nuestro conjunto de datos publicado solo contiene datos de anotaciones, incluidos los enlaces de YouTube, las marcas de tiempo y las etiquetas de los oradores. No divulgamos datos de audio o visuales y es responsabilidad del usuario decidir si descargar los datos de video y cómo hacerlo y si el propósito previsto con los datos descargados es legal en su país. Para los usuarios de YouTube que tengan inquietudes sobre la inclusión de sus videos en nuestro conjunto de datos, contáctenos por correo electrónico: [email protected] o [email protected].
Cite el documento a continuación si utiliza el conjunto de datos:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }