VoxBlink2数据集是从YouTube平台获得的包含10万+说话人的大规模说话人识别数据集。该存储库提供了构建语料库和相关资源的指南,以重现我们文章中的结果。更多介绍请参见引用。如果您发现这个存储库对您的研究有帮助,请不要忘记给我们星星?。
让我们从获取资源文件和解压缩 tar 文件开始。
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
以下过程展示了如何构建 VoxBlink2
安装ffmpeg :
sudo apt-get 更新 && sudo apt-get 升级 sudo apt-get 安装 ffmpeg
安装Python库:
pip install -r 要求.txt
下载视频
我们为您提供两种下载视频或纯音频片段的选择。我们还利用多线程来促进下载过程。
对于视听
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 视频
仅适用于音频
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 音频
裁剪音频/视频
对于视听
python Cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path 元 --video_root=${BASE_DIR} --num_workers 4
仅适用于音频
python Cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path 元 --audio_root=${BASE_DIR} --num_workers 4
我们提供了人脸识别模型的简单脚本,该模型在策划 VoxBlink2 时采用。更多内容请查看fid。
我们提供了用于ASV模型评估的简单脚本,只需执行asv
文件夹中的run_eval.sh
即可。更多内容请查看asv。
我们提供简单的脚本来评估我们提出的任务的模型:开放集说话人识别(OSSI)。只需执行ossi
文件夹中的run_eval_ossi.sh
即可。更多内容请查看ossi。
该数据集根据CC BY-NC-SA 4.0许可证获得许可。这意味着,只要您提供适当的归属并在同一许可下分发您的贡献,您就可以出于非商业目的共享和调整数据集。详细条款可以在这里找到。
重要提示:我们发布的数据集仅包含注释数据,包括 YouTube 链接、时间戳和演讲者标签。我们不发布音频或视频数据,用户有责任决定是否以及如何下载视频数据,以及下载数据的预期目的在其所在国家/地区是否合法。对于对其视频是否包含在我们的数据集中有疑虑的 YouTube 用户,请通过电子邮件联系我们:[email protected] 或 [email protected]。
如果您使用该数据集,请引用下面的论文:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }