Der VoxBlink2-Datensatz ist ein groß angelegter Sprechererkennungsdatensatz mit mehr als 100.000 Sprechern, der von der YouTube-Plattform bezogen wurde. Dieses Repository bietet Richtlinien zum Aufbau des Korpus und entsprechende Ressourcen zur Reproduktion der Ergebnisse in unserem Artikel. Weitere Informationen finden Sie im Zitat. Wenn Sie dieses Repository für Ihre Recherche hilfreich finden, vergessen Sie nicht, uns einen Stern zu geben.
Beginnen wir mit dem Abrufen der Ressourcendateien und dem Dekomprimieren der TAR-Dateien.
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
Die folgenden Verfahren zeigen, wie Sie Ihren VoxBlink2 aufbauen
ffmpeg installieren:
sudo apt-get update && sudo apt-get upgrade sudo apt-get install ffmpeg
Installieren Sie die Python-Bibliothek:
pip install -r Anforderungen.txt
Laden Sie Videos herunter
Wir bieten Ihnen zwei Alternativen zum Herunterladen von Video- oder Nur-Audio-Segmenten. Wir nutzen auch Multithread, um den Download-Prozess zu erleichtern.
Für audiovisuelle Medien
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode Video
Nur für Audio
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio
Audio/Videos zuschneiden
Für audiovisuelle Medien
python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4
Nur für Audio
python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4
Wir stellen einfache Skripte unseres Gesichtserkennungsmodells zur Verfügung, das bei der Kuratierung von VoxBlink2 übernommen wird. Weitere Informationen finden Sie unter fid.
Wir stellen einfache Skripte für die Modellbewertung von ASV bereit. Führen Sie einfach run_eval.sh
im asv
Ordner aus. Weitere Informationen finden Sie unter asv.
Wir stellen einfache Skripte für die Modellbewertung unserer vorgeschlagenen Aufgabe bereit: Open-Set Speaker-Identification (OSSI). Führen Sie einfach run_eval_ossi.sh
im ossi
-Ordner aus. Weitere Informationen finden Sie unter ossi.
Der Datensatz ist unter der CC BY-NC-SA 4.0- Lizenz lizenziert. Dies bedeutet, dass Sie den Datensatz für nichtkommerzielle Zwecke teilen und anpassen können, sofern Sie eine entsprechende Quellenangabe angeben und Ihre Beiträge unter derselben Lizenz verbreiten. Detaillierte Konditionen finden Sie hier.
Wichtiger Hinweis: Unser veröffentlichter Datensatz enthält nur Anmerkungsdaten, einschließlich der YouTube-Links, Zeitstempel und Sprecherbezeichnungen. Wir geben keine Audio- oder Videodaten heraus und es liegt in der Verantwortung des Benutzers, zu entscheiden, ob und wie er die Videodaten herunterlädt und ob der beabsichtigte Zweck mit den heruntergeladenen Daten in seinem Land legal ist. YouTube-Nutzer, die Bedenken hinsichtlich der Aufnahme ihrer Videos in unseren Datensatz haben, kontaktieren uns bitte per E-Mail: [email protected] oder [email protected].
Bitte zitieren Sie das folgende Papier, wenn Sie den Datensatz verwenden:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }