Repo ini berisi kode makalah: Meningkatkan Pengenalan Bahasa Isyarat Berkelanjutan dengan Model Gambar yang Diadaptasi. (Pracetak) [kertas]
Repo ini didasarkan pada VAC (ICCV 2021). Terima kasih banyak atas kerja hebat mereka!
Proyek ini diimplementasikan di Pytorch (lebih baik >=1.13 agar kompatibel dengan ctcdecode atau mungkin ada kesalahan). Jadi silakan instal Pytorch terlebih dahulu.
ctcdecode==0.4 [bahasa/ctcdecode],untuk dekode pencarian berkas.
[Opsional] sclite [kaldi-asr/kaldi], instal alat kaldi untuk mendapatkan sclite untuk evaluasi. Setelah instalasi, buat tautan lunak menuju sclite: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
Anda dapat menggunakan alat evaluasi versi python untuk kenyamanan (dengan menetapkan 'evaluate_tool' sebagai 'python' pada baris 16 dari ./configs/baseline.yaml), tetapi sclite dapat memberikan statistik yang lebih rinci.
Anda dapat menginstal modul lain yang diperlukan dengan melakukan pip install -r requirements.txt
Implementasi CLIP dan komponen lain yang diusulkan diberikan di ./modules/openai/model.py.
Anda dapat memilih salah satu dari kumpulan data berikut untuk memverifikasi efektivitas AdaptSign.
Unduh Kumpulan Data RWTH-PHOENIX-Weather 2014 [tautan unduh]. Eksperimen kami berdasarkan phoenix-2014.v3.tar.gz.
Setelah selesai mengunduh dataset, ekstrak. Disarankan untuk membuat tautan lunak ke kumpulan data yang diunduh.
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
Urutan gambar asli adalah 210x260, kami mengubah ukurannya menjadi 256x256 untuk augmentasi. Jalankan perintah berikut untuk menghasilkan dict gloss dan mengubah ukuran urutan gambar.
cd ./praproses python dataset_preprocess.py --proses-gambar --multiproses
Unduh Kumpulan Data RWTH-PHOENIX-Weather 2014 [tautan unduh]
Setelah selesai mengunduh dataset, ekstrak. Disarankan untuk membuat tautan lunak ke kumpulan data yang diunduh.
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
Urutan gambar asli adalah 210x260, kami mengubah ukurannya menjadi 256x256 untuk augmentasi. Jalankan perintah berikut untuk menghasilkan dict gloss dan mengubah ukuran urutan gambar.
cd ./praproses python dataset_preprocess-T.py --proses-gambar --multiproses
Minta Kumpulan Data CSL dari situs web ini [tautan unduh]
Setelah selesai mengunduh dataset, ekstrak. Disarankan untuk membuat tautan lunak ke kumpulan data yang diunduh.
ln -s PATH_TO_DATASET ./dataset/CSL
Urutan gambar asli adalah 1280x720, kami mengubah ukurannya menjadi 256x256 untuk augmentasi. Jalankan perintah berikut untuk menghasilkan dict gloss dan mengubah ukuran urutan gambar.
cd ./praproses python dataset_preprocess-CSL.py --proses-gambar --multiproses
Minta Kumpulan Data Harian CSL dari situs web ini [tautan unduh]
Setelah selesai mengunduh dataset, ekstrak. Disarankan untuk membuat tautan lunak ke kumpulan data yang diunduh.
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
Urutan gambar asli adalah 1280x720, kami mengubah ukurannya menjadi 256x256 untuk augmentasi. Jalankan perintah berikut untuk menghasilkan dict gloss dan mengubah ukuran urutan gambar.
cd ./praproses python dataset_preprocess-CSL-Daily.py --proses-gambar --multiprosesing
Tulang punggung | Dev WER | Uji WER | Model terlatih |
---|---|---|---|
ResNet18 | 18,5% | 18,8% | [Baidu] (kata sandi: enyp) [Google Drive] |
Tulang punggung | Dev WER | Uji WER | Model terlatih |
---|---|---|---|
ResNet18 | 18,6% | 18,9% | [Baidu] (kata sandi: pfk1) [Google Drive] |
Tulang punggung | Dev WER | Uji WER | Model terlatih |
---|---|---|---|
ResNet18 | 26,7% | 26,3% | [Baidu] (kata sandi: kbu4) [Google Drive] |
Untuk mengevaluasi model yang telah dilatih sebelumnya, pilih himpunan data dari phoenix2014/phoenix2014-T/CSL/CSL-Daily di baris 3 di ./config/baseline.yaml terlebih dahulu, dan jalankan perintah di bawah ini:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
Prioritas file konfigurasi adalah: baris perintah > file konfigurasi > nilai default argparse. Untuk melatih model SLR, jalankan perintah di bawah ini:
python main.py --device your_device
Perhatikan bahwa Anda dapat memilih kumpulan data target dari phoenix2014/phoenix2014-T/CSL/CSL-Daily di baris 3 di ./config/baseline.yaml.