AdaptSignダウンロード - AdaptSignソースコードのダウンロード

AdaptSign

その他のソースコード

ダウンロード

アダプトサイン

このリポジトリには、論文「適応画像モデルによる連続手話認識の改善」のコードが含まれています。 (プレプリント) [紙]

このリポジトリは VAC (ICCV 2021) に基づいています。彼らの素晴らしい仕事に感謝します!

前提条件

このプロジェクトは Pytorch で実装されています (ctcdecode と互換性を持たせるには 1.13 以上が望ましいです。そうしないとエラーが発生する可能性があります)。したがって、最初に Pytorch をインストールしてください。
ctcdecode==0.4 [parlance/ctcdecode]，ビームサーチデコード用。
[オプション] sclite [kaldi-asr/kaldi]、kaldi ツールをインストールして評価用の sclite を取得します。インストール後、sclite へのソフトリンクを作成します: mkdir ./software ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
利便性のために Python バージョン評価ツールを使用することもできます (./configs/baseline.yaml の 16 行目に「evaluate_tool」を「python」として設定します)。ただし、sclite はより詳細な統計を提供できます。
pip install -r requirements.txt実行することで、他の必要なモジュールをインストールできます。

実装

CLIP およびその他の提案されたコンポーネントの実装は、./modules/openai/model.py にあります。

データの準備

次のデータセットのいずれかを選択して、AdaptSign の有効性を検証できます。

PHOENIX2014 データセット

RWTH-PHOENIX-Weather 2014 データセットをダウンロードします [ダウンロードリンク]。私たちの実験はphoenix-2014.v3.tar.gzに基づいています。
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフトリンクを作成することをお勧めします。
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
元の画像シーケンスは 210x260 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
```
 cd ./プリプロセス
python dataset_preprocess.py --process-image --multiprocessing
```

PHOENIX2014-T データセット

RWTH-PHOENIX-Weather 2014 データセットをダウンロード [ダウンロードリンク]
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフトリンクを作成することをお勧めします。
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
元の画像シーケンスは 210x260 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
```
 cd ./プリプロセス
python dataset_preprocess-T.py --process-image --multiprocessing
```

CSL データセット

この Web サイトから CSL データセットをリクエスト [ダウンロードリンク]
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフトリンクを作成することをお勧めします。
ln -s PATH_TO_DATASET ./dataset/CSL
元の画像シーケンスは 1280x720 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
```
 cd ./プリプロセス
python dataset_preprocess-CSL.py --process-image --multiprocessing
```

CSL-日次データセット

この Web サイトから CSL-Daily データセットをリクエスト [ダウンロードリンク]
データセットのダウンロードが完了したら、それを抽出します。ダウンロードしたデータセットへのソフトリンクを作成することをお勧めします。
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
元の画像シーケンスは 1280x720 ですが、拡張のためにサイズを 256x256 に変更します。次のコマンドを実行して、光沢辞書を生成し、画像シーケンスのサイズを変更します。
```
 cd ./プリプロセス
python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
```

推論

PHOENIX2014 データセット

バックボーン	開発WER	WER をテストする	事前訓練されたモデル
レスネット18	18.5%	18.8%	[百度] (パスワード: enyp) 【Googleドライブ】

PHOENIX2014-T データセット

バックボーン	開発WER	WER をテストする	事前訓練されたモデル
レスネット18	18.6%	18.9%	[百度] (パスワード: pfk1) 【Googleドライブ】

CSL-日次データセット

バックボーン	開発WER	WER をテストする	事前訓練されたモデル
レスネット18	26.7%	26.3%	[百度] (パスワード: kbu4) 【Googleドライブ】

事前トレーニング済みモデルを評価するには、まず ./config/baseline.yaml の 3 行目で phoenix2014/phoenix2014-T/CSL/CSL-Daily からデータセットを選択し、以下のコマンドを実行します。
python main.py --device your_device --load-weights path_to_weight.pt --phase test