このリポジトリには、論文「適応画像モデルによる連続手話認識の改善」のコードが含まれています。 (プレプリント) [紙]
このリポジトリは VAC (ICCV 2021) に基づいています。彼らの素晴らしい仕事に感謝します!
このプロジェクトは Pytorch で実装されています (ctcdecode と互換性を持たせるには 1.13 以上が望ましいです。そうしないとエラーが発生する可能性があります)。したがって、最初に Pytorch をインストールしてください。
ctcdecode==0.4 [parlance/ctcdecode],ビームサーチデコード用。
[オプション] sclite [kaldi-asr/kaldi]、kaldi ツールをインストールして評価用の sclite を取得します。インストール後、sclite へのソフト リンクを作成します: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
利便性のために Python バージョン評価ツールを使用することもできます (./configs/baseline.yaml の 16 行目に「evaluate_tool」を「python」として設定します)。ただし、sclite はより詳細な統計を提供できます。
pip install -r requirements.txt
実行することで、他の必要なモジュールをインストールできます。
CLIP およびその他の提案されたコンポーネントの実装は、./modules/openai/model.py にあります。
次のデータセットのいずれかを選択して、AdaptSign の有効性を検証できます。
RWTH-PHOENIX-Weather 2014 データセットをダウンロードします [ダウンロード リンク]。私たちの実験はphoenix-2014.v3.tar.gzに基づいています。
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフト リンクを作成することをお勧めします。
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
元の画像シーケンスは 210x260 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
cd ./プリプロセス python dataset_preprocess.py --process-image --multiprocessing
RWTH-PHOENIX-Weather 2014 データセットをダウンロード [ダウンロード リンク]
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフト リンクを作成することをお勧めします。
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
元の画像シーケンスは 210x260 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
cd ./プリプロセス python dataset_preprocess-T.py --process-image --multiprocessing
この Web サイトから CSL データセットをリクエスト [ダウンロード リンク]
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフト リンクを作成することをお勧めします。
ln -s PATH_TO_DATASET ./dataset/CSL
元の画像シーケンスは 1280x720 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
cd ./プリプロセス python dataset_preprocess-CSL.py --process-image --multiprocessing
この Web サイトから CSL-Daily データセットをリクエスト [ダウンロード リンク]
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフト リンクを作成することをお勧めします。
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
元の画像シーケンスは 1280x720 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
cd ./プリプロセス python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
バックボーン | 開発WER | WER をテストする | 事前訓練されたモデル |
---|---|---|---|
レスネット18 | 18.5% | 18.8% | [百度] (パスワード: enyp) 【Googleドライブ】 |
バックボーン | 開発WER | WER をテストする | 事前訓練されたモデル |
---|---|---|---|
レスネット18 | 18.6% | 18.9% | [百度] (パスワード: pfk1) 【Googleドライブ】 |
バックボーン | 開発WER | WER をテストする | 事前訓練されたモデル |
---|---|---|---|
レスネット18 | 26.7% | 26.3% | [百度] (パスワード: kbu4) 【Googleドライブ】 |
事前トレーニング済みモデルを評価するには、まず ./config/baseline.yaml の 3 行目で phoenix2014/phoenix2014-T/CSL/CSL-Daily からデータセットを選択し、以下のコマンドを実行します。
python main.py --device your_device --load-weights path_to_weight.pt --phase test
設定ファイルの優先順位は、コマンド ライン > 設定ファイル > argparse のデフォルト値です。 SLR モデルをトレーニングするには、以下のコマンドを実行します。
python main.py --device your_device
./config/baseline.yaml の 3 行目で、ターゲット データセットを phoenix2014/phoenix2014-T/CSL/CSL-Daily から選択できることに注意してください。