ScriptsForVoxBlink2下载 - ScriptsForVoxBlink2源代码下载

ScriptsForVoxBlink2

其他源码

下载

VoxBlink2 数据集

VoxBlink2数据集是从YouTube平台获得的包含10万+说话人的大规模说话人识别数据集。该存储库提供了构建语料库和相关资源的指南，以重现我们文章中的结果。更多介绍请参见引用。如果您发现这个存储库对您的研究有帮助，请不要忘记给我们星星？。

资源

让我们从获取资源文件和解压缩 tar 文件开始。

 tar -zxvf spk_info.tar.gz
tar -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

文件结构

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

下载

以下过程展示了如何构建 VoxBlink2

先决条件

安装ffmpeg ：

 sudo apt-get 更新 && sudo apt-get 升级
sudo apt-get 安装 ffmpeg

安装Python库：

 pip install -r 要求.txt

下载视频

我们为您提供两种下载视频或纯音频片段的选择。我们还利用多线程来促进下载过程。

对于视听

python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 视频

仅适用于音频

python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 音频

裁剪音频/视频

对于视听

python Cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path 元 --video_root=${BASE_DIR} --num_workers 4

仅适用于音频

python Cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path 元 --audio_root=${BASE_DIR} --num_workers 4

FID评估

我们提供了人脸识别模型的简单脚本，该模型在策划 VoxBlink2 时采用。更多内容请查看fid。

SV评估

我们提供了用于ASV模型评估的简单脚本，只需执行asv文件夹中的run_eval.sh即可。更多内容请查看asv。

开放式说话人识别评估

我们提供简单的脚本来评估我们提出的任务的模型：开放集说话人识别（OSSI）。只需执行ossi文件夹中的run_eval_ossi.sh即可。更多内容请查看ossi。

执照

该数据集根据CC BY-NC-SA 4.0许可证获得许可。这意味着，只要您提供适当的归属并在同一许可下分发您的贡献，您就可以出于非商业目的共享和调整数据集。详细条款可以在这里找到。

重要提示：我们发布的数据集仅包含注释数据，包括 YouTube 链接、时间戳和演讲者标签。我们不发布音频或视频数据，用户有责任决定是否以及如何下载视频数据，以及下载数据的预期目的在其所在国家/地区是否合法。对于对其视频是否包含在我们的数据集中有疑虑的 YouTube 用户，请通过电子邮件联系我们：[email protected] 或 [email protected]。

引文

如果您使用该数据集，请引用下面的论文：

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

展开

附加信息