Download ScriptsForVoxBlink2 - Download do código-fonte de ScriptsForVoxBlink2

ScriptsForVoxBlink2

Outro código-fonte

Baixar

O conjunto de dados VoxBlink2

O conjunto de dados VoxBlink2 é um conjunto de dados de reconhecimento de alto-falantes em grande escala com mais de 100 mil alto-falantes obtidos na plataforma do YouTube. Este repositório fornece diretrizes para construir o corpus e recursos relativos para reproduzir os resultados em nosso artigo. Para mais introdução, consulte citar. Se você achar este repositório útil para sua pesquisa, não se esqueça de nos dar uma estrela?.

Recurso

Vamos começar obtendo os arquivos de recursos e descompactando os arquivos tar.

 tar -zxvf spk_info.tar.gz
tar -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

Estrutura de arquivo

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

Download

Os procedimentos a seguir mostram como construir seu VoxBlink2

Pré-requisitos

Instale o ffmpeg :

 sudo apt-get atualização && sudo apt-get atualização
sudo apt-get install ffmpeg

Instale a biblioteca Python:

 pip instalar -r requisitos.txt

Baixar vídeos

Oferecemos duas alternativas para você baixar segmentos somente de vídeo ou áudio. Também aproveitamos o multi-thread para facilitar o processo de download.

Para Audiovisual

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode vídeo

Somente para áudio

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode áudio

Cortar áudio/vídeos

Para Audiovisual

 python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4

Somente para áudio

 python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4

Avaliação FID

Fornecemos scripts simples do nosso modelo de identificação facial, que é adotado na curadoria do VoxBlink2. Para mais informações, consulte fid.

Avaliação de VS

Fornecemos scripts simples para avaliação de modelo ASV, basta executar run_eval.sh na pasta asv . Para mais informações, consulte asv.

Avaliação de identificação de alto-falante em conjunto aberto

Fornecemos scripts simples para avaliação do modelo de nossa tarefa proposta: Open-Set Speaker-Identification (OSSI). basta executar run_eval_ossi.sh na pasta ossi . Para mais informações, consulte ossi.

Licença

O conjunto de dados está licenciado sob a licença CC BY-NC-SA 4.0 . Isso significa que você pode compartilhar e adaptar o conjunto de dados para fins não comerciais, desde que forneça a atribuição apropriada e distribua suas contribuições sob a mesma licença. Termos detalhados podem ser encontrados aqui.

Observação importante: nosso conjunto de dados lançado contém apenas dados de anotações, incluindo links do YouTube, carimbos de data/hora e rótulos de alto-falantes. Não divulgamos dados de áudio ou visuais e é responsabilidade do usuário decidir se e como baixar os dados de vídeo e se a finalidade pretendida com os dados baixados é legal em seu país. Para usuários do YouTube preocupados com a inclusão de seus vídeos em nosso conjunto de dados, entre em contato conosco pelo e-mail: [email protected] ou [email protected].

Citação

Cite o artigo abaixo se você usar o conjunto de dados:

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

Expandir

Informações adicionais

Versão
Tipo Outro código-fonte
Data da Última Atualização 2024-12-30
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos