VoxBlink2 데이터세트는 YouTube 플랫폼에서 얻은 100,000명 이상의 화자가 포함된 대규모 화자 인식 데이터세트입니다. 이 저장소는 우리 기사의 결과를 재현하기 위한 말뭉치 및 관련 리소스를 구축하기 위한 지침을 제공합니다. 자세한 소개는 인용을 참조하세요. 이 저장소가 귀하의 연구에 도움이 된다면 별표를 주시는 것을 잊지 마세요.
리소스 파일을 얻고 tar 파일의 압축을 푸는 것부터 시작해 보겠습니다.
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
다음 절차는 VoxBlink2를 구성하는 방법을 보여줍니다.
ffmpeg를 설치하십시오:
sudo apt-get 업데이트 && sudo apt-get 업그레이드 sudo apt-get 설치 ffmpeg
Python 라이브러리를 설치합니다.
pip 설치 -r 요구사항.txt
비디오 다운로드
우리는 비디오 또는 오디오 전용 세그먼트를 다운로드할 수 있는 두 가지 대안을 제공합니다. 또한 다운로드 프로세스를 촉진하기 위해 멀티스레드를 활용합니다.
시청각용
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 비디오
오디오 전용
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode 오디오
오디오/비디오 자르기
시청각용
python Cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path 메타 --video_root=${BASE_DIR} --num_workers 4
오디오 전용
python Cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path 메타 --audio_root=${BASE_DIR} --num_workers 4
우리는 VoxBlink2 큐레이팅에 채택된 얼굴 식별 모델의 간단한 스크립트를 제공합니다. 자세한 내용은 fid를 참조하세요.
ASV의 모델 평가를 위한 간단한 스크립트를 제공합니다. asv
폴더에서 run_eval.sh
실행하면 됩니다. 자세한 내용은 asv를 참조하세요.
제안된 작업의 모델 평가를 위한 간단한 스크립트인 OSSI(Open-Set Speaker-Identification)를 제공합니다. ossi
폴더에서 run_eval_ossi.sh
실행하세요. 자세한 내용은 ossi를 참조하세요.
데이터 세트는 CC BY-NC-SA 4.0 라이선스에 따라 라이선스가 부여됩니다. 이는 동일한 라이선스에 따라 적절한 속성을 제공하고 기여를 배포하는 한 비상업적 목적으로 데이터 세트를 공유하고 조정할 수 있음을 의미합니다. 자세한 약관은 여기에서 확인할 수 있습니다.
중요 참고 사항: 출시된 데이터세트에는 YouTube 링크, 타임스탬프, 화자 라벨을 포함한 주석 데이터만 포함되어 있습니다. 우리는 오디오 또는 시각적 데이터를 공개하지 않으며 비디오 데이터를 다운로드할지 여부와 방법, 다운로드한 데이터의 의도된 목적이 해당 국가에서 합법적인지 여부를 결정하는 것은 사용자의 책임입니다. 자신의 동영상이 데이터세트에 포함되는 것과 관련해 우려사항이 있는 YouTube 사용자의 경우 [email protected] 또는 [email protected]으로 이메일을 보내 문의해 주세요.
데이터세트를 활용하는 경우 아래 논문을 인용해 주세요.
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }