ScriptsForVoxBlink2下載 - ScriptsForVoxBlink2原始碼下載

ScriptsForVoxBlink2

其他源碼

下載

VoxBlink2 資料集

VoxBlink2資料集是從YouTube平台獲得的包含10萬+說話者的大規模說話者識別資料集。這個儲存庫提供了建立語料庫和相關資源的指南，以重現我們文章中的結果。更多介紹請參考引用。如果您發現這個儲存庫對您的研究有幫助，請不要忘記給我們星星？

資源

讓我們從獲取資源檔案和解壓縮 tar 檔案開始。

 tar -zxvf spk_info.tar.gz
tar -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

文件結構

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

下載

以下過程展示如何建立 VoxBlink2

先決條件

安裝ffmpeg ：

 sudo apt-get 更新 && sudo apt-get 升級
sudo apt-get 安裝 ffmpeg

安裝Python庫：

 pip install -r 要求.txt

下載影片

我們為您提供兩種下載影片或純音訊片段的選擇。我們也利用多線程來促進下載過程。

對於視聽

python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 視頻

僅適用於音訊

python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 音頻

裁切音訊/視訊

對於視聽

python Cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path 元 --video_root=${BASE_DIR} --num_workers 4

僅適用於音訊

python Cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path 元 --audio_root=${BASE_DIR} --num_workers 4

FID評估

我們提供了人臉辨識模型的簡單腳本，該模型在策劃 VoxBlink2 時採用。更多內容請查看fid。

SV評估

我們提供了用於ASV模型評估的簡單腳本，只需執行asv資料夾中的run_eval.sh即可。更多內容請查看asv。

開放式說話者辨識評估

我們提供簡單的腳本來評估我們提出的任務的模型：開放集說話者識別（OSSI）。只需執行ossi資料夾中的run_eval_ossi.sh即可。更多內容請查看ossi。

執照

此資料集根據CC BY-NC-SA 4.0授權取得授權。這意味著，只要您提供適當的歸屬並在同一許可下分發您的貢獻，您就可以出於非商業目的共享和調整資料集。詳細條款可以在這裡找到。

重要提示：我們發布的數據集僅包含註釋數據，包括 YouTube 連結、時間戳記和演講者標籤。我們不發布音訊或視訊數據，用戶有責任決定是否以及如何下載視訊數據，以及下載數據的預期目的在其所在國家/地區是否合法。對於對其影片是否包含在我們的資料集中有疑慮的 YouTube 用戶，請透過電子郵件聯絡我們：[email protected] 或 [email protected]。

引文

如果您使用該資料集，請引用下面的論文：

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

展開

附加信息

版本
類型其他源碼
更新時間 2024-12-30
大小 50MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部