이 저장소에는 적응된 이미지 모델을 통한 지속적인 수화 인식 개선이라는 논문의 코드가 포함되어 있습니다. (사전 인쇄) [용지]
이 저장소는 VAC(ICCV 2021)를 기반으로 합니다. 그들의 훌륭한 작업에 많은 감사를 드립니다!
이 프로젝트는 Pytorch에서 구현됩니다(ctcdecode와 호환하려면 >=1.13이 더 좋음). 그렇지 않으면 오류가 발생할 수 있습니다. 따라서 먼저 Pytorch를 설치하시기 바랍니다.
ctcdecode==0.4 [parlance/ctcdecode],빔 검색 디코드용.
[선택 사항] sclite [kaldi-asr/kaldi], kaldi 도구를 설치하여 평가용 sclite를 가져옵니다. 설치 후 sclite에 대한 소프트 링크를 만듭니다: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
편의를 위해 Python 버전 평가 도구를 사용할 수 있지만(./configs/baseline.yaml의 16번째 줄에서 'evaluate_tool'을 'python'으로 설정) sclite는 더 자세한 통계를 제공할 수 있습니다.
pip install -r requirements.txt
수행하여 다른 필수 모듈을 설치할 수 있습니다.
CLIP 및 기타 제안된 구성 요소에 대한 구현은 ./modules/openai/model.py에 제공됩니다.
다음 데이터 세트 중 하나를 선택하여 AdaptSign의 효율성을 확인할 수 있습니다.
RWTH-PHOENIX-Weather 2014 데이터세트[다운로드 링크]를 다운로드하세요. phoenix-2014.v3.tar.gz를 기반으로 한 실험입니다.
데이터세트 다운로드가 완료되면 압축을 풀어주세요. 다운로드한 데이터 세트에 대한 소프트 링크를 만드는 것이 좋습니다.
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
원본 이미지 시퀀스는 210x260이며 확대를 위해 256x256으로 크기를 조정합니다. 다음 명령을 실행하여 Gloss dict를 생성하고 이미지 시퀀스의 크기를 조정하세요.
cd ./전처리 파이썬 데이터 세트_preprocess.py --process-image --다중 처리
RWTH-PHOENIX-Weather 2014 데이터세트 다운로드 [다운로드 링크]
데이터세트 다운로드가 완료되면 압축을 풀어주세요. 다운로드한 데이터 세트에 대한 소프트 링크를 만드는 것이 좋습니다.
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
원본 이미지 시퀀스는 210x260이며 확대를 위해 256x256으로 크기를 조정합니다. 다음 명령을 실행하여 Gloss dict를 생성하고 이미지 시퀀스의 크기를 조정하세요.
cd ./전처리 파이썬 데이터 세트_preprocess-T.py --process-image --multiprocessing
이 웹사이트에서 CSL 데이터세트를 요청하세요. [다운로드 링크]
데이터세트 다운로드가 완료되면 압축을 풀어주세요. 다운로드한 데이터 세트에 대한 소프트 링크를 만드는 것이 좋습니다.
ln -s PATH_TO_DATASET ./dataset/CSL
원본 이미지 시퀀스는 1280x720이며 확대를 위해 256x256으로 크기를 조정합니다. 다음 명령을 실행하여 Gloss dict를 생성하고 이미지 시퀀스의 크기를 조정하세요.
cd ./전처리 파이썬 데이터 세트_preprocess-CSL.py --process-image --multiprocessing
이 웹사이트에서 CSL-Daily 데이터세트를 요청하세요. [다운로드 링크]
데이터세트 다운로드가 완료되면 압축을 풀어주세요. 다운로드한 데이터 세트에 대한 소프트 링크를 만드는 것이 좋습니다.
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
원본 이미지 시퀀스는 1280x720이며 확대를 위해 256x256으로 크기를 조정합니다. 다음 명령을 실행하여 Gloss dict를 생성하고 이미지 시퀀스의 크기를 조정하세요.
cd ./전처리 python 데이터 세트_preprocess-CSL-Daily.py --process-image --multiprocessing
등뼈 | 개발 WER | WER 테스트 | 사전 학습된 모델 |
---|---|---|---|
ResNet18 | 18.5% | 18.8% | [바이두] (비밀번호: enyp) [구글드라이브] |
등뼈 | 개발 WER | WER 테스트 | 사전 학습된 모델 |
---|---|---|---|
ResNet18 | 18.6% | 18.9% | [바이두] (비밀번호: pfk1) [구글드라이브] |
등뼈 | 개발 WER | WER 테스트 | 사전 학습된 모델 |
---|---|---|---|
ResNet18 | 26.7% | 26.3% | [바이두] (비밀번호: kbu4) [구글드라이브] |
사전 훈련된 모델을 평가하려면 먼저 ./config/baseline.yaml의 3행에서 phoenix2014/phoenix2014-T/CSL/CSL-Daily의 데이터 세트를 선택하고 아래 명령을 실행하십시오.
python main.py --device your_device --load-weights path_to_weight.pt --phase test
구성 파일의 우선순위는 명령줄 > 구성 파일 > argparse 기본값입니다. SLR 모델을 학습하려면 아래 명령을 실행하세요.
python main.py --device your_device
./config/baseline.yaml의 3번째 줄에 있는 phoenix2014/phoenix2014-T/CSL/CSL-Daily에서 대상 데이터 세트를 선택할 수 있습니다.