VoxBlink2資料集是從YouTube平台獲得的包含10萬+說話者的大規模說話者識別資料集。這個儲存庫提供了建立語料庫和相關資源的指南,以重現我們文章中的結果。更多介紹請參考引用。如果您發現這個儲存庫對您的研究有幫助,請不要忘記給我們星星?
讓我們從獲取資源檔案和解壓縮 tar 檔案開始。
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
以下過程展示如何建立 VoxBlink2
安裝ffmpeg :
sudo apt-get 更新 && sudo apt-get 升級 sudo apt-get 安裝 ffmpeg
安裝Python庫:
pip install -r 要求.txt
下載影片
我們為您提供兩種下載影片或純音訊片段的選擇。我們也利用多線程來促進下載過程。
對於視聽
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 視頻
僅適用於音訊
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 音頻
裁切音訊/視訊
對於視聽
python Cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path 元 --video_root=${BASE_DIR} --num_workers 4
僅適用於音訊
python Cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path 元 --audio_root=${BASE_DIR} --num_workers 4
我們提供了人臉辨識模型的簡單腳本,該模型在策劃 VoxBlink2 時採用。更多內容請查看fid。
我們提供了用於ASV模型評估的簡單腳本,只需執行asv
資料夾中的run_eval.sh
即可。更多內容請查看asv。
我們提供簡單的腳本來評估我們提出的任務的模型:開放集說話者識別(OSSI)。只需執行ossi
資料夾中的run_eval_ossi.sh
即可。更多內容請查看ossi。
此資料集根據CC BY-NC-SA 4.0授權取得授權。這意味著,只要您提供適當的歸屬並在同一許可下分發您的貢獻,您就可以出於非商業目的共享和調整資料集。詳細條款可以在這裡找到。
重要提示:我們發布的數據集僅包含註釋數據,包括 YouTube 連結、時間戳記和演講者標籤。我們不發布音訊或視訊數據,用戶有責任決定是否以及如何下載視訊數據,以及下載數據的預期目的在其所在國家/地區是否合法。對於對其影片是否包含在我們的資料集中有疑慮的 YouTube 用戶,請透過電子郵件聯絡我們:[email protected] 或 [email protected]。
如果您使用該資料集,請引用下面的論文:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }