Télécharger ScriptsForVoxBlink2 - ScriptsForVoxBlink2 Téléchargement du code source

ScriptsForVoxBlink2

Autre code source

Télécharger

L'ensemble de données VoxBlink2

L'ensemble de données VoxBlink2 est un ensemble de données de reconnaissance de locuteurs à grande échelle avec plus de 100 000 locuteurs obtenus à partir de la plateforme YouTube. Ce référentiel fournit des lignes directrices pour construire le corpus et les ressources relatives pour reproduire les résultats dans notre article. Pour plus d’introduction, veuillez consulter la citation. Si vous trouvez ce référentiel utile pour vos recherches, n'oubliez pas de nous donner une étoile ?.

Ressource

Commençons par obtenir les fichiers de ressources et décompresser les fichiers tar.

 tar -zxvf spk_info.tar.gz
tar -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

Structure du fichier

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

Télécharger

Les procédures suivantes montrent comment construire votre VoxBlink2

Pré-requis

Installez ffmpeg :

 sudo apt-get update && sudo apt-get update
sudo apt-get install ffmpeg

Installez la bibliothèque Python :

 pip install -r exigences.txt

Télécharger des vidéos

Nous vous proposons deux alternatives pour télécharger des segments vidéo ou audio uniquement. Nous exploitons également le multithread pour faciliter le processus de téléchargement.

Pour l'audiovisuel

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode vidéo

Pour l'audio uniquement

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio

Recadrer l'audio/vidéos

Pour l'audiovisuel

 python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path méta --video_root=${BASE_DIR} --num_workers 4

Pour l'audio uniquement

 python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path méta --audio_root=${BASE_DIR} --num_workers 4

Évaluation FID

Nous fournissons des scripts simples de notre modèle d'identification de visage, qui est adopté lors de la sélection de VoxBlink2. Pour en savoir plus, veuillez consulter fid.

Évaluation SV

Nous fournissons des scripts simples pour l'évaluation du modèle ASV, exécutez simplement run_eval.sh dans le dossier asv . Pour en savoir plus, veuillez consulter asv.

Évaluation de l’identification des locuteurs ouverts

Nous fournissons des scripts simples pour l'évaluation du modèle de notre tâche proposée : Open-Set Speaker-Identification (OSSI). exécutez simplement run_eval_ossi.sh dans le dossier ossi . Pour en savoir plus, veuillez consulter ossi.

Licence

L'ensemble de données est sous licence CC BY-NC-SA 4.0 . Cela signifie que vous pouvez partager et adapter l'ensemble de données à des fins non commerciales à condition de fournir une attribution appropriée et de distribuer vos contributions sous la même licence. Les conditions détaillées peuvent être trouvées ici.

Remarque importante : notre ensemble de données publié contient uniquement des données d'annotation, y compris les liens YouTube, les horodatages et les étiquettes des locuteurs. Nous ne divulguons pas de données audio ou visuelles et il est de la responsabilité de l'utilisateur de décider si et comment télécharger les données vidéo et si l'utilisation prévue des données téléchargées est légale dans son pays. Pour les utilisateurs de YouTube ayant des inquiétudes concernant l'inclusion de leurs vidéos dans notre ensemble de données, veuillez nous contacter par e-mail : [email protected] ou [email protected].

Citation

Veuillez citer l'article ci-dessous si vous utilisez l'ensemble de données :

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

Développer

Informations supplémentaires

Version
Type Autre code source
Date de mise à jour 2024-12-30
taille 50MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout