مجموعة بيانات VoxBlink2 عبارة عن مجموعة بيانات واسعة النطاق للتعرف على المتحدثين تضم أكثر من 100 ألف مكبر صوت تم الحصول عليها من منصة YouTube. يوفر هذا المستودع إرشادات لبناء المجموعة والموارد النسبية لإعادة إنتاج النتائج الواردة في مقالتنا. لمزيد من المقدمة، يرجى الاطلاع على الاستشهاد. إذا وجدت هذا المستودع مفيدًا لبحثك، فلا تنس أن تمنحنا نجمة؟.
لنبدأ بالحصول على ملفات الموارد وفك ضغط ملفات tar.
القطران -zxvf spk_info.tar.gz القطران -zxvf vb2_meta.tar.gz القطران -zxvf asr_res.tar.gz
% The file structure is summarized as follows: |---- data | |---- ossi # [Folder]evaluation protocols for open-set speaker identification | |---- test_vox # [Folder] evaluation protocols for speaker verification | |---- spk2videos # [spk,video1,video2,...] |---- ckpt #checkpoints for evaluation | |---- ecapatdnn # [Folder] | |---- resnet34 # [Folder] | |---- resnet100 # [Folder] | |---- resnet293 # [Folder] | |---- face_model # [Folder] |---- spk_info # video'tags of speakers: | |---- id000000 | |---- id000001 | |---- ... |---- asr_res # ASR annotations by Whisper: | |---- id000000 | |---- id000001 | |---- ... |---- meta # timestamps for video/audio cropping | |---- id000000 # spkid | |---- DwgYRqnQZHM #videoid | |---- 00000.txt #uttid | |---- ... | |---- ... | |---- ... |---- face_id # face_identification modules | |---- api.py # corresponding inference functions | |---- arcface.py # corresponding model definitions | |---- README.md | |---- test.py # Test |---- ossi # video'tags of speakers: | |---- eval.py # recipe for evaluate openset speaker identification | |---- utils.py | |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI |---- audio_cropper.py # extract audio-only segments by timestamps from downloaded audios |---- video_cropper.py # extract audio-visual segments by timestamps from downloaded videos |---- downloader.py # scripts for download videos |---- LICENSE # license |---- README.md |---- requirement.txt
توضح الإجراءات التالية كيفية إنشاء VoxBlink2 الخاص بك
تثبيت ffmpeg :
sudo apt-get update && sudo apt-get Upgrade Sudo apt-get install ffmpeg
تثبيت مكتبة بايثون:
تثبيت النقطة -r متطلبات.txt
تنزيل مقاطع الفيديو
نحن نقدم لك بديلين لتنزيل مقاطع الفيديو أو الصوت فقط. نحن أيضًا نستفيد من الخيوط المتعددة لتسهيل عملية التنزيل.
للصوتيات والمرئيات
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode video
للصوت فقط
python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio
اقتصاص الصوت/الفيديو
للصوتيات والمرئيات
بايثون Cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4
للصوت فقط
بايثون Cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4
نحن نقدم نصوصًا بسيطة لنموذج التعرف على الوجه الخاص بنا، والذي تم اعتماده في تنسيق VoxBlink2. للمزيد، يرجى إلقاء نظرة على fid.
نحن نقدم نصوصًا بسيطة لتقييم نموذج ASV، فقط قم بتنفيذ run_eval.sh
في مجلد asv
. للمزيد، يرجى إلقاء نظرة على asv.
نحن نقدم نصوصًا بسيطة لتقييم النموذج لمهمتنا المقترحة: تحديد هوية المتحدث المفتوح (OSSI). فقط قم بتنفيذ run_eval_ossi.sh
في مجلد ossi
. للمزيد، يرجى إلقاء نظرة على أوسي.
تم ترخيص مجموعة البيانات بموجب ترخيص CC BY-NC-SA 4.0 . وهذا يعني أنه يمكنك مشاركة مجموعة البيانات وتكييفها لأغراض غير تجارية طالما أنك تقدم الإسناد المناسب وتوزع مساهماتك بموجب نفس الترخيص. يمكن العثور على الشروط التفصيلية هنا.
ملاحظة مهمة: تحتوي مجموعة البيانات الصادرة لدينا فقط على بيانات التعليقات التوضيحية، بما في ذلك روابط YouTube والطوابع الزمنية وأسماء المتحدثين. نحن لا ننشر بيانات صوتية أو مرئية وتقع على عاتق المستخدم مسؤولية تحديد ما إذا كان سيتم تنزيل بيانات الفيديو وكيفية تنزيلها وما إذا كان الغرض المقصود من البيانات التي تم تنزيلها قانونيًا في بلده. بالنسبة لمستخدمي YouTube الذين لديهم مخاوف بشأن إدراج مقاطع الفيديو الخاصة بهم في مجموعة البيانات الخاصة بنا، يرجى الاتصال بنا عبر البريد الإلكتروني: [email protected] أو [email protected].
يرجى الاستشهاد بالورقة أدناه إذا كنت تستخدم مجموعة البيانات:
@misc{lin2024voxblink2100kspeakerrecognition, title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li}, year={2024}, eprint={2407.11510}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2407.11510}, }