يحتوي هذا الريبو على رموز الورقة: تحسين التعرف المستمر على لغة الإشارة باستخدام نماذج الصور المعدلة. (طبعة أولية) [ورقة]
يعتمد هذا الريبو على VAC (ICCV 2021). شكرا جزيلا على عملهم العظيم!
تم تنفيذ هذا المشروع في Pytorch (من الأفضل >=1.13 ليكون متوافقًا مع ctcdecode أو قد توجد أخطاء). وبالتالي يرجى تثبيت Pytorch أولاً.
ctcdecode==0.4 [لغة/ctcdecode]، لفك تشفير بحث الشعاع.
[اختياري] sclite [kaldi-asr/kaldi]، قم بتثبيت أداة kaldi للحصول على sclite للتقييم. بعد التثبيت، أنشئ رابطًا ناعمًا تجاه sclite: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
يمكنك استخدام أداة تقييم إصدار python من أجل الراحة (عن طريق تعيين "evaluate_tool" كـ "python" في السطر 16 من ./configs/baseline.yaml)، ولكن يمكن أن يوفر sclite إحصائيات أكثر تفصيلاً.
يمكنك تثبيت الوحدات المطلوبة الأخرى عن طريق إجراء pip install -r requirements.txt
يتوفر تنفيذ CLIP والمكونات المقترحة الأخرى في ./modules/openai/model.py.
يمكنك اختيار أي من مجموعات البيانات التالية للتحقق من فعالية AdaptSign.
قم بتنزيل مجموعة بيانات RWTH-PHOENIX-Weather 2014 [رابط التنزيل]. تجاربنا مبنية على phoenix-2014.v3.tar.gz.
بعد الانتهاء من تنزيل مجموعة البيانات، قم باستخراجها. يُقترح إنشاء رابط ناعم تجاه مجموعة البيانات التي تم تنزيلها.
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
تسلسل الصور الأصلي هو 210x260، وقمنا بتغيير حجمه إلى 256x256 للزيادة. قم بتشغيل الأمر التالي لإنشاء الإملاء اللامع وتغيير حجم تسلسل الصور.
cd ./preprocess
python dataset_preprocess.py --process-image --multiprocessing
تنزيل مجموعة بيانات RWTH-PHOENIX-Weather 2014 [رابط التنزيل]
بعد الانتهاء من تنزيل مجموعة البيانات، قم باستخراجها. يُقترح إنشاء رابط ناعم تجاه مجموعة البيانات التي تم تنزيلها.
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
تسلسل الصور الأصلي هو 210x260، وقمنا بتغيير حجمه إلى 256x256 للزيادة. قم بتشغيل الأمر التالي لإنشاء الإملاء اللامع وتغيير حجم تسلسل الصور.
cd ./preprocess
python dataset_preprocess-T.py --process-image --multiprocessing
اطلب مجموعة بيانات CSL من هذا الموقع [رابط التنزيل]
بعد الانتهاء من تنزيل مجموعة البيانات، قم باستخراجها. يُقترح إنشاء رابط ناعم تجاه مجموعة البيانات التي تم تنزيلها.
ln -s PATH_TO_DATASET ./dataset/CSL
تسلسل الصور الأصلي هو 1280×720، وقمنا بتغيير حجمه إلى 256×256 للزيادة. قم بتشغيل الأمر التالي لإنشاء الإملاء اللامع وتغيير حجم تسلسل الصور.
cd ./preprocess
python dataset_preprocess-CSL.py --process-image --multiprocessing
اطلب مجموعة بيانات CSL-Daily من هذا الموقع [رابط التنزيل]
بعد الانتهاء من تنزيل مجموعة البيانات، قم باستخراجها. يُقترح إنشاء رابط ناعم تجاه مجموعة البيانات التي تم تنزيلها.
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
تسلسل الصور الأصلي هو 1280×720، وقمنا بتغيير حجمه إلى 256×256 للزيادة. قم بتشغيل الأمر التالي لإنشاء الإملاء اللامع وتغيير حجم تسلسل الصور.
cd ./preprocess
python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
العمود الفقري | ديف وير | اختبار وير | نموذج تم تدريبه مسبقًا |
---|---|---|---|
ريسنيت18 | 18.5% | 18.8% | [بايدو] (passwd: enyp) [جوجل درايف] |
العمود الفقري | ديف وير | اختبار وير | نموذج تم تدريبه مسبقًا |
---|---|---|---|
ريسنيت18 | 18.6% | 18.9% | [بايدو] (passwd: pfk1) [جوجل درايف] |
العمود الفقري | ديف وير | اختبار وير | نموذج تم تدريبه مسبقًا |
---|---|---|---|
ريسنيت18 | 26.7% | 26.3% | [بايدو] (passwd: kbu4) [جوجل درايف] |
لتقييم النموذج المُدرب مسبقًا، اختر مجموعة البيانات من phoenix2014/phoenix2014-T/CSL/CSL-Daily في السطر 3 في ./config/baseline.yaml أولاً، وقم بتشغيل الأمر أدناه:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
أولويات ملفات التكوين هي: سطر الأوامر > ملف التكوين > القيم الافتراضية لـ argparse. لتدريب نموذج SLR، قم بتشغيل الأمر أدناه:
python main.py --device your_device
لاحظ أنه يمكنك اختيار مجموعة البيانات المستهدفة من phoenix2014/phoenix2014-T/CSL/CSL-Daily في السطر 3 في ./config/baseline.yaml.