ScriptsForVoxBlink2 herunterladen - ScriptsForVoxBlink2 Quellcode herunterladen

ScriptsForVoxBlink2

Anderer Quellcode

Herunterladen

Der VoxBlink2-Datensatz

Der VoxBlink2-Datensatz ist ein groß angelegter Sprechererkennungsdatensatz mit mehr als 100.000 Sprechern, der von der YouTube-Plattform bezogen wurde. Dieses Repository bietet Richtlinien zum Aufbau des Korpus und entsprechende Ressourcen zur Reproduktion der Ergebnisse in unserem Artikel. Weitere Informationen finden Sie im Zitat. Wenn Sie dieses Repository für Ihre Recherche hilfreich finden, vergessen Sie nicht, uns einen Stern zu geben.

Ressource

Beginnen wir mit dem Abrufen der Ressourcendateien und dem Dekomprimieren der TAR-Dateien.

 tar -zxvf spk_info.tar.gz
tar -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

Dateistruktur

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

Herunterladen

Die folgenden Verfahren zeigen, wie Sie Ihren VoxBlink2 aufbauen

Voraussetzungen

ffmpeg installieren:

 sudo apt-get update && sudo apt-get upgrade
sudo apt-get install ffmpeg

Installieren Sie die Python-Bibliothek:

 pip install -r Anforderungen.txt

Laden Sie Videos herunter

Wir bieten Ihnen zwei Alternativen zum Herunterladen von Video- oder Nur-Audio-Segmenten. Wir nutzen auch Multithread, um den Download-Prozess zu erleichtern.

Für audiovisuelle Medien

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode Video

Nur für Audio

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio

Audio/Videos zuschneiden

Für audiovisuelle Medien

 python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4

Nur für Audio

 python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4

FID-Bewertung

Wir stellen einfache Skripte unseres Gesichtserkennungsmodells zur Verfügung, das bei der Kuratierung von VoxBlink2 übernommen wird. Weitere Informationen finden Sie unter fid.

SV-Bewertung

Wir stellen einfache Skripte für die Modellbewertung von ASV bereit. Führen Sie einfach run_eval.sh im asv Ordner aus. Weitere Informationen finden Sie unter asv.

Bewertung der Identifizierung von Open-Set-Sprechern

Wir stellen einfache Skripte für die Modellbewertung unserer vorgeschlagenen Aufgabe bereit: Open-Set Speaker-Identification (OSSI). Führen Sie einfach run_eval_ossi.sh im ossi -Ordner aus. Weitere Informationen finden Sie unter ossi.

Lizenz

Der Datensatz ist unter der CC BY-NC-SA 4.0- Lizenz lizenziert. Dies bedeutet, dass Sie den Datensatz für nichtkommerzielle Zwecke teilen und anpassen können, sofern Sie eine entsprechende Quellenangabe angeben und Ihre Beiträge unter derselben Lizenz verbreiten. Detaillierte Konditionen finden Sie hier.

Wichtiger Hinweis: Unser veröffentlichter Datensatz enthält nur Anmerkungsdaten, einschließlich der YouTube-Links, Zeitstempel und Sprecherbezeichnungen. Wir geben keine Audio- oder Videodaten heraus und es liegt in der Verantwortung des Benutzers, zu entscheiden, ob und wie er die Videodaten herunterlädt und ob der beabsichtigte Zweck mit den heruntergeladenen Daten in seinem Land legal ist. YouTube-Nutzer, die Bedenken hinsichtlich der Aufnahme ihrer Videos in unseren Datensatz haben, kontaktieren uns bitte per E-Mail: [email protected] oder [email protected].

Zitat

Bitte zitieren Sie das folgende Papier, wenn Sie den Datensatz verwenden:

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

Expandieren

Zusätzliche Informationen