此儲存庫包含論文的程式碼:使用自適應圖像模型改進連續手語辨識。 (預印本)[論文]
此儲存庫基於 VAC (ICCV 2021)。非常感謝他們的出色工作!
該專案是在Pytorch中實現的(最好是>=1.13以相容於ctcdecode,否則可能存在錯誤)。因此請先安裝Pytorch。
ctcdecode==0.4 [parlance/ctcdecode],用於波束搜尋解碼。
[可選] sclite [kaldi-asr/kaldi],安裝kaldi工具來取得sclite進行評估。安裝後,建立 sclite 的軟體連結: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
為了方便起見,您可以使用python版本評估工具(透過在./configs/baseline.yaml第16行將'evaluate_tool'設定為'python'),但sclite可以提供更詳細的統計資料。
您可以透過執行pip install -r requirements.txt
安裝其他所需的模組
CLIP 和其他建議元件的實作在 ./modules/openai/model.py 中給出。
您可以選擇以下任一個資料集來驗證AdaptSign的有效性。
下載 RWTH-PHOENIX-Weather 2014 資料集 [下載連結]。我們的實驗是基於phoenix-2014.v3.tar.gz。
完成資料集下載後,將其解壓縮。建議下載的資料集建立軟連結。
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
原始影像序列為 210x260,我們將其大小調整為 256x256 以進行增強。執行以下命令產生光澤字典並調整影像序列的大小。
cd ./preprocess
python dataset_preprocess.py --process-image --multiprocessing
下載 RWTH-PHOENIX-Weather 2014 資料集 [下載連結]
完成資料集下載後,將其解壓縮。建議下載的資料集建立軟連結。
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
原始影像序列為 210x260,我們將其大小調整為 256x256 以進行增強。執行以下命令產生光澤字典並調整影像序列的大小。
cd ./preprocess
python dataset_preprocess-T.py --process-image --multiprocessing
從此網站請求 CSL 資料集 [下載連結]
完成資料集下載後,將其解壓縮。建議下載的資料集建立軟連結。
ln -s PATH_TO_DATASET ./dataset/CSL
原始影像序列為 1280x720,我們將其大小調整為 256x256 以進行增強。執行以下命令產生光澤字典並調整影像序列的大小。
cd ./preprocess
python dataset_preprocess-CSL.py --process-image --multiprocessing
從此網站索取 CSL-Daily 資料集 [下載連結]
完成資料集下載後,將其解壓縮。建議下載的資料集建立軟連結。
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
原始影像序列為 1280x720,我們將其大小調整為 256x256 以進行增強。執行以下命令產生光澤字典並調整影像序列的大小。
cd ./preprocess
python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
骨幹 | 開發WER | 測試錯誤率 | 預訓練模型 |
---|---|---|---|
殘差網路18 | 18.5% | 18.8% | [百度](密碼:enyp) [Google雲端硬碟] |
骨幹 | 開發WER | 測試錯誤率 | 預訓練模型 |
---|---|---|---|
殘差網路18 | 18.6% | 18.9% | [百度](密碼:pfk1) [Google雲端硬碟] |
骨幹 | 開發WER | 測試錯誤率 | 預訓練模型 |
---|---|---|---|
殘差網路18 | 26.7% | 26.3% | [百度](密碼:kbu4) [Google雲端硬碟] |
為了評估預訓練模型,首先選擇./config/baseline.yaml第3行中的phoenix2014/phoenix2014-T/CSL/CSL-Daily資料集,然後執行以下命令:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
設定檔的優先權為:命令列 > 設定檔 > argparse 預設值。要訓練 SLR 模型,請執行以下命令:
python main.py --device your_device
請注意,您可以從./config/baseline.yaml第3行中的phoenix2014/phoenix2014-T/CSL/CSL-Daily中選擇目標資料集。