Dieses Repo enthält Codes des Papiers: Improving Continuous Sign Language Recognition with Adapted Image Models. (Vordruck) [Papier]
Dieses Repo basiert auf VAC (ICCV 2021). Vielen Dank für ihre tolle Arbeit!
Dieses Projekt ist in Pytorch implementiert (besser >=1.13, um mit ctcdecode kompatibel zu sein, sonst können Fehler auftreten). Bitte installieren Sie daher zuerst Pytorch.
ctcdecode==0.4 [Sprache/ctcdecode],für Beam-Search-Dekodierung.
[Optional] sclite [kaldi-asr/kaldi], installieren Sie das Kaldi-Tool, um Sclite zur Auswertung zu erhalten. Erstellen Sie nach der Installation einen Softlink zum Sclite: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
Sie können der Einfachheit halber das Python-Versionsbewertungstool verwenden (indem Sie „evaluate_tool“ in Zeile 16 von ./configs/baseline.yaml auf „python“ setzen), sclite kann jedoch detailliertere Statistiken bereitstellen.
Sie können andere erforderliche Module installieren, indem Sie pip install -r requirements.txt
ausführen
Die Implementierung für CLIP und andere vorgeschlagene Komponenten ist in ./modules/openai/model.py angegeben.
Sie können einen der folgenden Datensätze auswählen, um die Wirksamkeit von AdaptSign zu überprüfen.
Laden Sie den RWTH-PHOENIX-Wetterdatensatz 2014 herunter [Download-Link]. Unsere Experimente basieren auf phoenix-2014.v3.tar.gz.
Nachdem Sie den Datensatz heruntergeladen haben, extrahieren Sie ihn. Es wird empfohlen, einen Softlink zum heruntergeladenen Datensatz zu erstellen.
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
Die ursprüngliche Bildsequenz ist 210 x 260, wir ändern die Größe zur Vergrößerung auf 256 x 256. Führen Sie den folgenden Befehl aus, um Glanzdikt zu generieren und die Größe der Bildsequenz zu ändern.
cd ./preprocess
python dataset_preprocess.py --process-image --multiprocessing
Laden Sie den RWTH-PHOENIX-Wetterdatensatz 2014 herunter [Download-Link]
Nachdem Sie den Datensatz heruntergeladen haben, extrahieren Sie ihn. Es wird empfohlen, einen Softlink zum heruntergeladenen Datensatz zu erstellen.
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
Die ursprüngliche Bildsequenz ist 210 x 260, wir ändern die Größe zur Vergrößerung auf 256 x 256. Führen Sie den folgenden Befehl aus, um Glanzdikt zu generieren und die Größe der Bildsequenz zu ändern.
cd ./preprocess
python dataset_preprocess-T.py --process-image --multiprocessing
Fordern Sie den CSL-Datensatz auf dieser Website an [Download-Link]
Nachdem Sie den Datensatz heruntergeladen haben, extrahieren Sie ihn. Es wird empfohlen, einen Softlink zum heruntergeladenen Datensatz zu erstellen.
ln -s PATH_TO_DATASET ./dataset/CSL
Die ursprüngliche Bildsequenz ist 1280 x 720, wir ändern die Größe zur Vergrößerung auf 256 x 256. Führen Sie den folgenden Befehl aus, um Glanzdikt zu generieren und die Größe der Bildsequenz zu ändern.
cd ./preprocess
python dataset_preprocess-CSL.py --process-image --multiprocessing
Fordern Sie den CSL-Daily-Datensatz auf dieser Website an [Download-Link]
Nachdem Sie den Datensatz heruntergeladen haben, extrahieren Sie ihn. Es wird empfohlen, einen Softlink zum heruntergeladenen Datensatz zu erstellen.
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
Die ursprüngliche Bildsequenz ist 1280 x 720, wir ändern die Größe zur Vergrößerung auf 256 x 256. Führen Sie den folgenden Befehl aus, um Glanzdikt zu generieren und die Größe der Bildsequenz zu ändern.
cd ./preprocess
python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
Rückgrat | Entwickler WER | Testen Sie WER | Vorab trainiertes Modell |
---|---|---|---|
ResNet18 | 18,5 % | 18,8 % | [Baidu] (Passwort: enyp) [Google Drive] |
Rückgrat | Entwickler WER | Testen Sie WER | Vorab trainiertes Modell |
---|---|---|---|
ResNet18 | 18,6 % | 18,9 % | [Baidu] (Passwort: pfk1) [Google Drive] |
Rückgrat | Entwickler WER | Testen Sie WER | Vorab trainiertes Modell |
---|---|---|---|
ResNet18 | 26,7 % | 26,3 % | [Baidu] (Passwort: kbu4) [Google Drive] |
Um das vorab trainierte Modell auszuwerten, wählen Sie zunächst den Datensatz aus phoenix2014/phoenix2014-T/CSL/CSL-Daily in Zeile 3 in ./config/baseline.yaml aus und führen Sie den folgenden Befehl aus:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
Die Prioritäten der Konfigurationsdateien sind: Befehlszeile > Konfigurationsdatei > Standardwerte von argparse. Führen Sie den folgenden Befehl aus, um das SLR-Modell zu trainieren:
python main.py --device your_device
Beachten Sie, dass Sie den Zieldatensatz aus phoenix2014/phoenix2014-T/CSL/CSL-Daily in Zeile 3 in ./config/baseline.yaml auswählen können.