تنزيل ScriptsForVoxBlink2 - تنزيل كود المصدر ScriptsForVoxBlink2

ScriptsForVoxBlink2

شفرة المصدر الأخرى

تنزيل

مجموعة بيانات VoxBlink2

مجموعة بيانات VoxBlink2 عبارة عن مجموعة بيانات واسعة النطاق للتعرف على المتحدثين تضم أكثر من 100 ألف مكبر صوت تم الحصول عليها من منصة YouTube. يوفر هذا المستودع إرشادات لبناء المجموعة والموارد النسبية لإعادة إنتاج النتائج الواردة في مقالتنا. لمزيد من المقدمة، يرجى الاطلاع على الاستشهاد. إذا وجدت هذا المستودع مفيدًا لبحثك، فلا تنس أن تمنحنا نجمة؟.

الموارد

لنبدأ بالحصول على ملفات الموارد وفك ضغط ملفات tar.

 القطران -zxvf spk_info.tar.gz
القطران -zxvf vb2_meta.tar.gz
 القطران -zxvf asr_res.tar.gz

هيكل الملف

% The file structure is summarized as follows: 
|---- data               
|     |---- ossi    # [Folder]evaluation protocols for open-set speaker identification
|     |---- test_vox # [Folder] evaluation protocols for speaker verification
|     |---- spk2videos	# [spk,video1,video2,...]
|---- ckpt #checkpoints for evaluation
|     |---- ecapatdnn # [Folder]
|     |---- resnet34 # [Folder]
|     |---- resnet100 # [Folder]
|     |---- resnet293 # [Folder]
|     |---- face_model # [Folder]
|---- spk_info             # video'tags of speakers：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- asr_res            # ASR annotations by Whisper：
|     |---- id000000	
|     |---- id000001	
|     |---- ...
|---- meta		# timestamps for video/audio cropping
|     |---- id000000	# spkid
|           |---- DwgYRqnQZHM	#videoid
|                 |---- 00000.txt	#uttid
|                 |---- ...
|           |---- ... 
|     |---- ...	
|---- face_id            # face_identification modules
|     |---- api.py # corresponding inference functions
|     |---- arcface.py # corresponding model definitions
|     |---- README.md 
|     |---- test.py # Test
|---- ossi            # video'tags of speakers：
|     |---- eval.py # recipe for evaluate openset speaker identification
|     |---- utils.py 
|     |---- example.npy # eg. Resnet34-based embedding for evaluate OSSI 
|---- audio_cropper.py	# extract audio-only segments by timestamps from downloaded audios
|---- video_cropper.py	# extract audio-visual segments by timestamps from downloaded videos
|---- downloader.py	# scripts for download videos
|---- LICENSE		# license
|---- README.md	
|---- requirement.txt

تحميل

توضح الإجراءات التالية كيفية إنشاء VoxBlink2 الخاص بك

المتطلبات المسبقة

تثبيت ffmpeg :

 sudo apt-get update && sudo apt-get Upgrade
Sudo apt-get install ffmpeg

تثبيت مكتبة بايثون:

 تثبيت النقطة -r متطلبات.txt

تنزيل مقاطع الفيديو

نحن نقدم لك بديلين لتنزيل مقاطع الفيديو أو الصوت فقط. نحن أيضًا نستفيد من الخيوط المتعددة لتسهيل عملية التنزيل.

للصوتيات والمرئيات

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode video

للصوت فقط

 python downloader.py --base_dir ${BASE_DIR} --num_workers 4 --mode audio

اقتصاص الصوت/الفيديو

للصوتيات والمرئيات

 بايثون Cropper_video.py --save_dir_audio ${SAVE_PATH_AUDIO} --save_dir_video ${SAVE_PATH_VIDEO} --timestamp_path meta --video_root=${BASE_DIR} --num_workers 4

للصوت فقط

 بايثون Cropper_audio.py --save_dir ${SAVE_PATH_AUDIO} --timestamp_path meta --audio_root=${BASE_DIR} --num_workers 4

تقييم FID

نحن نقدم نصوصًا بسيطة لنموذج التعرف على الوجه الخاص بنا، والذي تم اعتماده في تنسيق VoxBlink2. للمزيد، يرجى إلقاء نظرة على fid.

تقييم SV

نحن نقدم نصوصًا بسيطة لتقييم نموذج ASV، فقط قم بتنفيذ run_eval.sh في مجلد asv . للمزيد، يرجى إلقاء نظرة على asv.

تقييم تحديد هوية المتحدث في المجموعة المفتوحة

نحن نقدم نصوصًا بسيطة لتقييم النموذج لمهمتنا المقترحة: تحديد هوية المتحدث المفتوح (OSSI). فقط قم بتنفيذ run_eval_ossi.sh في مجلد ossi . للمزيد، يرجى إلقاء نظرة على أوسي.

رخصة

تم ترخيص مجموعة البيانات بموجب ترخيص CC BY-NC-SA 4.0 . وهذا يعني أنه يمكنك مشاركة مجموعة البيانات وتكييفها لأغراض غير تجارية طالما أنك تقدم الإسناد المناسب وتوزع مساهماتك بموجب نفس الترخيص. يمكن العثور على الشروط التفصيلية هنا.

ملاحظة مهمة: تحتوي مجموعة البيانات الصادرة لدينا فقط على بيانات التعليقات التوضيحية، بما في ذلك روابط YouTube والطوابع الزمنية وأسماء المتحدثين. نحن لا ننشر بيانات صوتية أو مرئية وتقع على عاتق المستخدم مسؤولية تحديد ما إذا كان سيتم تنزيل بيانات الفيديو وكيفية تنزيلها وما إذا كان الغرض المقصود من البيانات التي تم تنزيلها قانونيًا في بلده. بالنسبة لمستخدمي YouTube الذين لديهم مخاوف بشأن إدراج مقاطع الفيديو الخاصة بهم في مجموعة البيانات الخاصة بنا، يرجى الاتصال بنا عبر البريد الإلكتروني: [email protected] أو [email protected].

الاقتباس

يرجى الاستشهاد بالورقة أدناه إذا كنت تستخدم مجموعة البيانات:

@misc{lin2024voxblink2100kspeakerrecognition,
      title={VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark}, 
      author={Yuke Lin and Ming Cheng and Fulin Zhang and Yingying Gao and Shilei Zhang and Ming Li},
      year={2024},
      eprint={2407.11510},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2407.11510}, 
}

يوسع

معلومات إضافية

الإصدار
النوع شفرة المصدر الأخرى
وقت التحديث 2024-12-30
الحجم 50MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل