Загрузка ScriptsForVoxBlink2 - Загрузка исходного кода ScriptsForVoxBlink2

ScriptsForVoxBlink2

Другой исходный код

Скачать

Набор данных VoxBlink2

Набор данных VoxBlink2 представляет собой крупномасштабный набор данных по распознаванию говорящих, включающий более 100 тысяч говорящих, полученный с платформы YouTube. В этом репозитории представлены рекомендации по созданию корпуса и относительных ресурсов для воспроизведения результатов из нашей статьи. Для получения дополнительной информации см. cite. Если вы найдете этот репозиторий полезным для ваших исследований, не забудьте поставить нам звездочку?

Ресурс

Начнем с получения файлов ресурсов и распаковки tar-файлов.

 tar -zxvf spk_info.tar.gz
tar -zxvf vb2_meta.tar.gz
 tar -zxvf asr_res.tar.gz

Структура файла

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

Скачать

Следующие процедуры показывают, как создать VoxBlink2.

Предварительные условия

Установите ffmpeg :

 обновление sudo apt-get && обновление sudo apt-get
sudo apt-get установить ffmpeg

Установите библиотеку Python:

 pip install -r требования.txt

Скачать видео

Мы предлагаем вам два варианта загрузки видео или сегментов, содержащих только аудио. Мы также используем многопоточность для облегчения процесса загрузки.

Для аудиовизуального

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode видео

Только для аудио

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio

Обрезать аудио/видео

Для аудиовизуального

 python Croper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path мета --video_root=${BASE_DIR} --num_workers 4

Только для аудио

 python Croper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path мета --audio_root=${BASE_DIR} --num_workers 4

Оценка FID

Мы предоставляем простые сценарии нашей модели идентификации лица, которая используется при разработке VoxBlink2. Для получения дополнительной информации, пожалуйста, посмотрите fid.

Оценка СВ

Мы предоставляем простые сценарии для оценки модели ASV, просто запустите run_eval.sh в папке asv . Для получения дополнительной информации, пожалуйста, посмотрите asv.

Оценка идентификации громкоговорителей открытого типа

Мы предоставляем простые сценарии для оценки модели предлагаемой нами задачи: Идентификация говорящего с открытым набором (OSSI). просто запустите run_eval_ossi.sh в папке ossi . Для получения дополнительной информации, пожалуйста, посмотрите ossi.

Лицензия

Набор данных лицензируется по лицензии CC BY-NC-SA 4.0 . Это означает, что вы можете делиться набором данных и адаптировать его для некоммерческих целей при условии, что вы предоставите соответствующее указание авторства и распространяете свои материалы по той же лицензии. Подробные условия можно найти здесь.

Важное примечание. Наш опубликованный набор данных содержит только аннотационные данные, включая ссылки на YouTube, отметки времени и ярлыки докладчиков. Мы не разглашаем аудио- или визуальные данные, и пользователь несет ответственность за принятие решения о том, загружать ли видеоданные и каким образом, а также является ли их целевое назначение загруженными данными законным в его стране. Если пользователи YouTube обеспокоены включением их видео в наш набор данных, свяжитесь с нами по электронной почте: [email protected] или [email protected].

Цитирование

Пожалуйста, цитируйте статью ниже, если вы используете набор данных:

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

Расширять

Дополнительная информация