L'ensemble de données VoxBlink2 est un ensemble de données de reconnaissance de locuteurs à grande échelle avec plus de 100 000 locuteurs obtenus à partir de la plateforme YouTube. Ce référentiel fournit des lignes directrices pour construire le corpus et les ressources relatives pour reproduire les résultats dans notre article. Pour plus d’introduction, veuillez consulter la citation. Si vous trouvez ce référentiel utile pour vos recherches, n'oubliez pas de nous donner une étoile ?.
Commençons par obtenir les fichiers de ressources et décompresser les fichiers tar.
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
Les procédures suivantes montrent comment construire votre VoxBlink2
Installez ffmpeg :
sudo apt-get update && sudo apt-get update sudo apt-get install ffmpeg
Installez la bibliothèque Python :
pip install -r exigences.txt
Télécharger des vidéos
Nous vous proposons deux alternatives pour télécharger des segments vidéo ou audio uniquement. Nous exploitons également le multithread pour faciliter le processus de téléchargement.
Pour l'audiovisuel
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode vidéo
Pour l'audio uniquement
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio
Recadrer l'audio/vidéos
Pour l'audiovisuel
python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path méta --video_root=${BASE_DIR} --num_workers 4
Pour l'audio uniquement
python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path méta --audio_root=${BASE_DIR} --num_workers 4
Nous fournissons des scripts simples de notre modèle d'identification de visage, qui est adopté lors de la sélection de VoxBlink2. Pour en savoir plus, veuillez consulter fid.
Nous fournissons des scripts simples pour l'évaluation du modèle ASV, exécutez simplement run_eval.sh
dans le dossier asv
. Pour en savoir plus, veuillez consulter asv.
Nous fournissons des scripts simples pour l'évaluation du modèle de notre tâche proposée : Open-Set Speaker-Identification (OSSI). exécutez simplement run_eval_ossi.sh
dans le dossier ossi
. Pour en savoir plus, veuillez consulter ossi.
L'ensemble de données est sous licence CC BY-NC-SA 4.0 . Cela signifie que vous pouvez partager et adapter l'ensemble de données à des fins non commerciales à condition de fournir une attribution appropriée et de distribuer vos contributions sous la même licence. Les conditions détaillées peuvent être trouvées ici.
Remarque importante : notre ensemble de données publié contient uniquement des données d'annotation, y compris les liens YouTube, les horodatages et les étiquettes des locuteurs. Nous ne divulguons pas de données audio ou visuelles et il est de la responsabilité de l'utilisateur de décider si et comment télécharger les données vidéo et si l'utilisation prévue des données téléchargées est légale dans son pays. Pour les utilisateurs de YouTube ayant des inquiétudes concernant l'inclusion de leurs vidéos dans notre ensemble de données, veuillez nous contacter par e-mail : [email protected] ou [email protected].
Veuillez citer l'article ci-dessous si vous utilisez l'ensemble de données :
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }