Descarga ScriptsForVoxBlink2 - Descarga del código fuente ScriptsForVoxBlink2

ScriptsForVoxBlink2

Otro código fuente

Descargar

El conjunto de datos VoxBlink2

El conjunto de datos VoxBlink2 es un conjunto de datos de reconocimiento de hablantes a gran escala con más de 100.000 hablantes obtenidos de la plataforma YouTube. Este repositorio proporciona pautas para construir el corpus y los recursos relativos para reproducir los resultados de nuestro artículo. Para obtener más información, consulte citar. Si encuentra útil este repositorio para su investigación, no olvide darnos una estrella.

Recurso

Comencemos obteniendo los archivos de recursos y descomprimiendo los archivos tar.

 tar -zxvf spk_info.tar.gz
alquitrán -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

Estructura de archivos

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

Descargar

Los siguientes procedimientos muestran cómo construir su VoxBlink2.

Requisitos previos

Instalar ffmpeg :

 sudo apt-get actualización && sudo apt-get actualización
sudo apt-get instalar ffmpeg

Instale la biblioteca Python:

 instalación de pip -r requisitos.txt

Descargar vídeos

Le ofrecemos dos alternativas para descargar segmentos de video o solo audio. También aprovechamos los subprocesos múltiples para facilitar el proceso de descarga.

Para audiovisuales

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode vídeo

Solo para audio

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio

Recortar audio/vídeos

Para audiovisuales

 python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4

Solo para audio

 python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4

Evaluación FID

Proporcionamos scripts simples de nuestro modelo de identificación facial, que se adopta al seleccionar VoxBlink2. Para obtener más información, consulte fid.

Evaluación VS

Proporcionamos scripts simples para la evaluación del modelo de ASV, simplemente ejecute run_eval.sh en la carpeta asv . Para obtener más información, consulte asv.

Evaluación de identificación de locutores de conjunto abierto

Proporcionamos scripts simples para la evaluación del modelo de nuestra tarea propuesta: Open-Set Speaker-Identification (OSSI). simplemente ejecute run_eval_ossi.sh en la carpeta ossi . Para obtener más información, consulte ossi.

Licencia

El conjunto de datos tiene la licencia CC BY-NC-SA 4.0 . Esto significa que puede compartir y adaptar el conjunto de datos para fines no comerciales siempre que proporcione la atribución adecuada y distribuya sus contribuciones bajo la misma licencia. Los términos detallados se pueden encontrar aquí.

Nota importante: nuestro conjunto de datos publicado solo contiene datos de anotaciones, incluidos los enlaces de YouTube, las marcas de tiempo y las etiquetas de los oradores. No divulgamos datos de audio o visuales y es responsabilidad del usuario decidir si descargar los datos de video y cómo hacerlo y si el propósito previsto con los datos descargados es legal en su país. Para los usuarios de YouTube que tengan inquietudes sobre la inclusión de sus videos en nuestro conjunto de datos, contáctenos por correo electrónico: [email protected] o [email protected].

Citación

Cite el documento a continuación si utiliza el conjunto de datos:

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

Expandir

Información adicional

Versión
Tipo Otro código fuente
Fecha de actualización 2024-12-30
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo