Набор данных VoxBlink2 представляет собой крупномасштабный набор данных по распознаванию говорящих, включающий более 100 тысяч говорящих, полученный с платформы YouTube. В этом репозитории представлены рекомендации по созданию корпуса и относительных ресурсов для воспроизведения результатов из нашей статьи. Для получения дополнительной информации см. cite. Если вы найдете этот репозиторий полезным для ваших исследований, не забудьте поставить нам звездочку?
Начнем с получения файлов ресурсов и распаковки tar-файлов.
tar -zxvf spk_info.tar.gz tar -zxvf vb2_meta.tar.gz tar -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
Следующие процедуры показывают, как создать VoxBlink2.
Установите ffmpeg :
обновление sudo apt-get && обновление sudo apt-get sudo apt-get установить ffmpeg
Установите библиотеку Python:
pip install -r требования.txt
Скачать видео
Мы предлагаем вам два варианта загрузки видео или сегментов, содержащих только аудио. Мы также используем многопоточность для облегчения процесса загрузки.
Для аудиовизуального
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode видео
Только для аудио
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio
Обрезать аудио/видео
Для аудиовизуального
python Croper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path мета --video_root=${BASE_DIR} --num_workers 4
Только для аудио
python Croper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path мета --audio_root=${BASE_DIR} --num_workers 4
Мы предоставляем простые сценарии нашей модели идентификации лица, которая используется при разработке VoxBlink2. Для получения дополнительной информации, пожалуйста, посмотрите fid.
Мы предоставляем простые сценарии для оценки модели ASV, просто запустите run_eval.sh
в папке asv
. Для получения дополнительной информации, пожалуйста, посмотрите asv.
Мы предоставляем простые сценарии для оценки модели предлагаемой нами задачи: Идентификация говорящего с открытым набором (OSSI). просто запустите run_eval_ossi.sh
в папке ossi
. Для получения дополнительной информации, пожалуйста, посмотрите ossi.
Набор данных лицензируется по лицензии CC BY-NC-SA 4.0 . Это означает, что вы можете делиться набором данных и адаптировать его для некоммерческих целей при условии, что вы предоставите соответствующее указание авторства и распространяете свои материалы по той же лицензии. Подробные условия можно найти здесь.
Важное примечание. Наш опубликованный набор данных содержит только аннотационные данные, включая ссылки на YouTube, отметки времени и ярлыки докладчиков. Мы не разглашаем аудио- или визуальные данные, и пользователь несет ответственность за принятие решения о том, загружать ли видеоданные и каким образом, а также является ли их целевое назначение загруженными данными законным в его стране. Если пользователи YouTube обеспокоены включением их видео в наш набор данных, свяжитесь с нами по электронной почте: [email protected] или [email protected].
Пожалуйста, цитируйте статью ниже, если вы используете набор данных:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }