该存储库包含论文的代码:使用自适应图像模型改进连续手语识别。 (预印本)[论文]
该存储库基于 VAC (ICCV 2021)。非常感谢他们的出色工作!
该项目是在Pytorch中实现的(最好>=1.13以兼容ctcdecode,否则可能存在错误)。因此请先安装Pytorch。
ctcdecode==0.4 [parlance/ctcdecode],用于波束搜索解码。
[可选] sclite [kaldi-asr/kaldi],安装kaldi工具来获取sclite进行评估。安装后,创建指向 sclite 的软链接: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
为了方便起见,您可以使用python版本评估工具(通过在./configs/baseline.yaml第16行将'evaluate_tool'设置为'python'),但sclite可以提供更详细的统计信息。
您可以通过执行pip install -r requirements.txt
安装其他所需的模块
CLIP 和其他建议组件的实现在 ./modules/openai/model.py 中给出。
您可以选择以下任意一个数据集来验证AdaptSign的有效性。
下载 RWTH-PHOENIX-Weather 2014 数据集 [下载链接]。我们的实验基于phoenix-2014.v3.tar.gz。
完成数据集下载后,将其解压。建议对下载的数据集建立软链接。
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
原始图像序列为 210x260,我们将其大小调整为 256x256 以进行增强。运行以下命令生成光泽字典并调整图像序列的大小。
cd ./预处理 python dataset_preprocess.py --process-image --multiprocessing
下载 RWTH-PHOENIX-Weather 2014 数据集 [下载链接]
完成数据集下载后,将其解压。建议对下载的数据集建立软链接。
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
原始图像序列为 210x260,我们将其大小调整为 256x256 以进行增强。运行以下命令生成光泽字典并调整图像序列的大小。
cd ./预处理 python dataset_preprocess-T.py --process-image --multiprocessing
从此网站请求 CSL 数据集 [下载链接]
完成数据集下载后,将其解压。建议对下载的数据集建立软链接。
ln -s PATH_TO_DATASET ./dataset/CSL
原始图像序列为 1280x720,我们将其大小调整为 256x256 以进行增强。运行以下命令生成光泽字典并调整图像序列的大小。
cd ./预处理 python dataset_preprocess-CSL.py --process-image --multiprocessing
从此网站索取 CSL-Daily 数据集 [下载链接]
完成数据集下载后,将其解压。建议对下载的数据集建立软链接。
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
原始图像序列为 1280x720,我们将其大小调整为 256x256 以进行增强。运行以下命令生成光泽字典并调整图像序列的大小。
cd ./预处理 python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
骨干 | 开发WER | 测试错误率 | 预训练模型 |
---|---|---|---|
残差网络18 | 18.5% | 18.8% | [百度](密码:enyp) [谷歌云端硬盘] |
骨干 | 开发WER | 测试错误率 | 预训练模型 |
---|---|---|---|
残差网络18 | 18.6% | 18.9% | [百度](密码:pfk1) [谷歌云端硬盘] |
骨干 | 开发WER | 测试错误率 | 预训练模型 |
---|---|---|---|
残差网络18 | 26.7% | 26.3% | [百度](密码:kbu4) [谷歌云端硬盘] |
为了评估预训练模型,首先选择./config/baseline.yaml第3行中的phoenix2014/phoenix2014-T/CSL/CSL-Daily数据集,然后运行以下命令:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
配置文件的优先级为:命令行 > 配置文件 > argparse 默认值。要训练 SLR 模型,请运行以下命令:
python main.py --device your_device
请注意,您可以从./config/baseline.yaml第3行中的phoenix2014/phoenix2014-T/CSL/CSL-Daily中选择目标数据集。