الموقع الإلكتروني: https://ga642381.github.io/speeshprompt/
رابط الورق: https://arxiv.org/abs/2303.00733
مخططات خطوط الأنابيب: https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipeline.png
Datasets Doc: https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md
معدل أخذ العينات لمهمة المصب:
عند أداء المطالبة بالمهمة المصب ، تأكد من أن معدل أخذ العينات في Audios هو 16 كيلو هرتز.
التعديل: هناك التزام حديث بإجبار Librosa على تحميل الصوت في 16 كيلو هرتز.
تحميل النموذج المسبق:
تأكد من تحميل النموذج الذي تم تدريبه مسبقًا بشكل صحيح لتحقيق نتائج معقولة مع المطالبة.
الملاحظة: عند تحميل النموذج الذي تم تدريبه مسبقًا بشكل صحيح ، يجب أن تبدأ عصر التدريب للمطالبات في الفقر 46 ، وليس العصر 1. وذلك لأن GSLM المدربة مسبقًا تم تدريبها بالفعل على 45 عصرًا.
هناك 4 ملفات ستواجهها:
نموذج هوبرت : ترميز الكلام
نموذج K-Mean : كمية تمثيل الكلام في وحدات منفصلة
ملف القاموس : تحديد مساحة الوحدة لنموذج لغة الوحدة.
نموذج لغة الوحدة (ULM) : أداء نمذجة اللغة التوليدية على وحدات Disrete
يمكن تنزيل هذه النماذج تلقائيًا عند تشغيل خط أنابيب المعالجة المسبقة.
هناك 4 خطوات في مخطط البيانات المسبق للبيانات (الكلام 2unit). المهمة الرئيسية هنا هي أداء وحدات الكلام إلى الوحدات وجمع ملصقات المهام
توليد بيان
كمية
تخفيض
create_lm_dataset
نقوم بحفظ البيانات الوسيطة في كل خطوة حتى نتمكن من إجراء مزيد من التحليلات على البيانات التي المهتمين بها. أيضًا ، يمكنك فهم كيفية عملها بشكل أفضل عن طريق التحقق من كل بيانات وسيطة.
قم بتنزيل مجموعة البيانات
تعديل تكوين مجموعة البيانات ([أسفل] /config.yaml)
تعديل التكوين العالمي (المعالجة المسبقة/config.yaml)
تشغيل preporcess/runner.py
# يمكنك تشغيل كل شيء لتشغيله من خلال جميع المراحل الأربع: python Runner.py -model gslm -downstream scr_google_speech_commands -
# أو يمكنك تشغيل هذه المراحل الأربع بالتتابع من خلال الأمر التالي: python runner.py -model gslm -downstream scr_google_speech_commands -action internate_manifest Python Runner.py -Model GSLM -DownStream SCR_GOOGLE_SPEEDE_COMMANDS - Python Runner.py -Model GSLM -DownStream SCR_GOOGLE_SPEESH_COMMANDS -TOCT Python Runner.py -Model GSLM -DownStream SCR_GOOGLE_SPEEDE_COMMANDS -CREATE_LM_DATASET
الخيار 2
الخيار 1
هناك خطوتين في اللفظي ، والتي تقوم بتعيين تسميات المهمة في مفردات نموذج اللغة.
تشغيل proBalizer.py
مثال:
Python perbalizer.py -downstream scr_google_speech_commands -all -method freq
تقوم هذه الخطوة بتحويل البيانات اللفظية إلى الملفات الثنائية التي سيتم استخدامها لتدريب FairSeq.
قم بتشغيل FARSEQ_PREPROCESS.PY
مثال:
Python FairSeq_Preprocess.py -downstream scr_google_speech_commands -vb_method freq
أثناء التدريب ، سيتم حفظ نوعين من نقاط التفتيش
base_model
اِسْتَدْعَى
تشغيل Train.py
مثال:
Python Train.py -downstream scr_google_speech_commands -VB_Method Freq -exp_name scr_google_speech_commands_plen.5 -prompt_length 5 --DEP_PROMPT
تحميل base_model ويطالب بإجراء أخذ العينات
تشغيل sample.py
مثال:
عينة بيثون -exp_name scr_google_speech_commands_plen.5 -downstream scr_google_speech_commands -VB_Method Freq
الإخراج عبارة عن ملف JSON يحتوي على ملف file_name ، وحدات المصدر ، والحقيقة الأرضية (التسمية) ، والتنبؤ النموذجية: