การซื้อคืนนี้เก็บรหัสของรายงาน: การปรับปรุงการรับรู้ภาษามืออย่างต่อเนื่องด้วยแบบจำลองภาพที่ดัดแปลง (พิมพ์ล่วงหน้า) [กระดาษ]
การซื้อคืนนี้อิงตาม VAC (ICCV 2021) ขอบคุณมากสำหรับงานที่ยอดเยี่ยมของพวกเขา!
โปรเจ็กต์นี้ถูกนำไปใช้ใน Pytorch (ดีกว่า >=1.13 เพื่อให้เข้ากันได้กับ ctcdecode ไม่เช่นนั้นอาจมีข้อผิดพลาด) ดังนั้นโปรดติดตั้ง Pytorch ก่อน
ctcdecode==0.4 [parlance/ctcdecode] สำหรับการถอดรหัสการค้นหาลำแสง
[ไม่บังคับ] sclite [kaldi-asr/kaldi] ติดตั้งเครื่องมือ kaldi เพื่อรับ sclite สำหรับการประเมินผล หลังการติดตั้ง ให้สร้างซอฟต์ลิงก์ไปยัง sclite: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
คุณอาจใช้เครื่องมือประเมินเวอร์ชันของ Python เพื่อความสะดวก (โดยการตั้งค่า 'evaluate_tool' เป็น 'python' ในบรรทัดที่ 16 ของ ./configs/baseline.yaml) แต่ sclite สามารถให้สถิติที่มีรายละเอียดมากขึ้นได้
คุณสามารถติดตั้งโมดูลที่จำเป็นอื่นๆ ได้โดยดำเนินการ pip install -r requirements.txt
การใช้งานสำหรับ CLIP และส่วนประกอบที่เสนออื่นๆ มีอยู่ใน ./modules/openai/model.py
คุณสามารถเลือกชุดข้อมูลชุดใดชุดหนึ่งต่อไปนี้เพื่อตรวจสอบประสิทธิภาพของ AdaptSign
ดาวน์โหลดชุดข้อมูล RWTH-PHOENIX-Weather 2014 [ลิงก์ดาวน์โหลด] การทดลองของเราอิงจาก phoenix-2014.v3.tar.gz
หลังจากดาวน์โหลดชุดข้อมูลเสร็จแล้ว ให้แตกไฟล์ออก ขอแนะนำให้สร้างซอฟต์ลิงก์ไปยังชุดข้อมูลที่ดาวน์โหลด
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
ลำดับภาพต้นฉบับคือ 210x260 เราปรับขนาดเป็น 256x256 เพื่อเพิ่ม รันคำสั่งต่อไปนี้เพื่อสร้าง gloss dict และปรับขนาดลำดับรูปภาพ
cd ./preprocess
python dataset_preprocess.py --process-image --multiprocessing
ดาวน์โหลดชุดข้อมูล RWTH-PHOENIX-Weather 2014 [ลิงก์ดาวน์โหลด]
หลังจากดาวน์โหลดชุดข้อมูลเสร็จแล้ว ให้แตกไฟล์ออก ขอแนะนำให้สร้างซอฟต์ลิงก์ไปยังชุดข้อมูลที่ดาวน์โหลด
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
ลำดับภาพต้นฉบับคือ 210x260 เราปรับขนาดเป็น 256x256 เพื่อเพิ่ม รันคำสั่งต่อไปนี้เพื่อสร้าง gloss dict และปรับขนาดลำดับรูปภาพ
cd ./preprocess
python dataset_preprocess-T.py --process-image --multiprocessing
ขอชุดข้อมูล CSL จากเว็บไซต์นี้ [ลิงค์ดาวน์โหลด]
หลังจากดาวน์โหลดชุดข้อมูลเสร็จแล้ว ให้แตกไฟล์ออก ขอแนะนำให้สร้างซอฟต์ลิงก์ไปยังชุดข้อมูลที่ดาวน์โหลด
ln -s PATH_TO_DATASET ./dataset/CSL
ลำดับภาพต้นฉบับคือ 1280x720 เราปรับขนาดเป็น 256x256 เพื่อเพิ่ม รันคำสั่งต่อไปนี้เพื่อสร้าง gloss dict และปรับขนาดลำดับรูปภาพ
cd ./preprocess
python dataset_preprocess-CSL.py --process-image --multiprocessing
ขอชุดข้อมูล CSL-Daily จากเว็บไซต์นี้ [ลิงค์ดาวน์โหลด]
หลังจากดาวน์โหลดชุดข้อมูลเสร็จแล้ว ให้แตกไฟล์ออก ขอแนะนำให้สร้างซอฟต์ลิงก์ไปยังชุดข้อมูลที่ดาวน์โหลด
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
ลำดับภาพต้นฉบับคือ 1280x720 เราปรับขนาดเป็น 256x256 เพื่อเพิ่ม รันคำสั่งต่อไปนี้เพื่อสร้าง gloss dict และปรับขนาดลำดับรูปภาพ
cd ./preprocess
python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
กระดูกสันหลัง | เดฟ แวร์ | ทดสอบ WER | โมเดลที่ฝึกไว้ล่วงหน้า |
---|---|---|---|
ResNet18 | 18.5% | 18.8% | [ไป่ตู้] (passwd: enyp) [กูเกิลไดรฟ์] |
กระดูกสันหลัง | เดฟ แวร์ | ทดสอบ WER | โมเดลที่ฝึกไว้ล่วงหน้า |
---|---|---|---|
ResNet18 | 18.6% | 18.9% | [ไป่ตู้] (passwd: pfk1) [กูเกิลไดรฟ์] |
กระดูกสันหลัง | เดฟ แวร์ | ทดสอบ WER | โมเดลที่ฝึกไว้ล่วงหน้า |
---|---|---|---|
ResNet18 | 26.7% | 26.3% | [ไป่ตู้] (passwd: kbu4) [กูเกิลไดรฟ์] |
หากต้องการประเมินโมเดลที่ได้รับการฝึกล่วงหน้า ให้เลือกชุดข้อมูลจาก phoenix2014/phoenix2014-T/CSL/CSL-Daily ในบรรทัดที่ 3 ใน ./config/baseline.yaml ก่อน แล้วรันคำสั่งด้านล่าง:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
ลำดับความสำคัญของไฟล์คอนฟิกูเรชันคือ: บรรทัดคำสั่ง > ไฟล์คอนฟิก > ค่าเริ่มต้นของ argparse หากต้องการฝึกโมเดล SLR ให้รันคำสั่งด้านล่าง:
python main.py --device your_device
โปรดทราบว่าคุณสามารถเลือกชุดข้อมูลเป้าหมายจาก phoenix2014/phoenix2014-T/CSL/CSL-Daily ในบรรทัดที่ 3 ใน ./config/baseline.yaml