O conjunto de dados VoxBlink2 é um conjunto de dados de reconhecimento de alto-falantes em grande escala com mais de 100 mil alto-falantes obtidos na plataforma do YouTube. Este repositório fornece diretrizes para construir o corpus e recursos relativos para reproduzir os resultados em nosso artigo. Para mais introdução, consulte citar. Se você achar este repositório útil para sua pesquisa, não se esqueça de nos dar uma estrela?.
Vamos começar obtendo os arquivos de recursos e descompactando os arquivos tar.
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
Os procedimentos a seguir mostram como construir seu VoxBlink2
Instale o ffmpeg :
sudo apt-get atualização && sudo apt-get atualização sudo apt-get install ffmpeg
Instale a biblioteca Python:
pip instalar -r requisitos.txt
Baixar vídeos
Oferecemos duas alternativas para você baixar segmentos somente de vídeo ou áudio. Também aproveitamos o multi-thread para facilitar o processo de download.
Para Audiovisual
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode vídeo
Somente para áudio
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode áudio
Cortar áudio/vídeos
Para Audiovisual
python cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4
Somente para áudio
python cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4
Fornecemos scripts simples do nosso modelo de identificação facial, que é adotado na curadoria do VoxBlink2. Para mais informações, consulte fid.
Fornecemos scripts simples para avaliação de modelo ASV, basta executar run_eval.sh
na pasta asv
. Para mais informações, consulte asv.
Fornecemos scripts simples para avaliação do modelo de nossa tarefa proposta: Open-Set Speaker-Identification (OSSI). basta executar run_eval_ossi.sh
na pasta ossi
. Para mais informações, consulte ossi.
O conjunto de dados está licenciado sob a licença CC BY-NC-SA 4.0 . Isso significa que você pode compartilhar e adaptar o conjunto de dados para fins não comerciais, desde que forneça a atribuição apropriada e distribua suas contribuições sob a mesma licença. Termos detalhados podem ser encontrados aqui.
Observação importante: nosso conjunto de dados lançado contém apenas dados de anotações, incluindo links do YouTube, carimbos de data/hora e rótulos de alto-falantes. Não divulgamos dados de áudio ou visuais e é responsabilidade do usuário decidir se e como baixar os dados de vídeo e se a finalidade pretendida com os dados baixados é legal em seu país. Para usuários do YouTube preocupados com a inclusão de seus vídeos em nosso conjunto de dados, entre em contato conosco pelo e-mail: [email protected] ou [email protected].
Cite o artigo abaixo se você usar o conjunto de dados:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }