В этом репозитории содержатся коды статьи: Улучшение непрерывного распознавания языка жестов с помощью адаптированных моделей изображений. (Препринт) [бумага]
Это репозиторий основан на VAC (ICCV 2021). Большое спасибо за их прекрасную работу!
Этот проект реализован в Pytorch (лучше >= 1.13, чтобы быть совместимым с ctcdecode, иначе могут существовать ошибки). Поэтому сначала установите Pytorch.
ctcdecode==0,4 [parlance/ctcdecode],для декодирования поиска луча.
[Необязательно] sclite [kaldi-asr/kaldi], установите инструмент kaldi, чтобы получить sclite для оценки. После установки создайте программную ссылку на sclite: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
Для удобства вы можете использовать инструмент оценки версии Python (установив «evaluate_tool» как «python» в строке 16 файла ./configs/baseline.yaml), но sclite может предоставить более подробную статистику.
Вы можете установить другие необходимые модули, выполнив pip install -r requirements.txt
Реализация CLIP и других предлагаемых компонентов приведена в файле ./modules/openai/model.py.
Вы можете выбрать любой из следующих наборов данных, чтобы проверить эффективность AdaptSign.
Загрузите набор данных RWTH-PHOENIX-Weather 2014 [ссылка для скачивания]. Наши эксперименты основаны на phoenix-2014.v3.tar.gz.
После завершения загрузки набора данных извлеките его. Предлагается сделать мягкую ссылку на загруженный набор данных.
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
Исходная последовательность изображений имеет размер 210x260, для увеличения мы изменяем ее размер до 256x256. Запустите следующую команду, чтобы сгенерировать словарь глянца и изменить размер последовательности изображений.
cd ./preprocess
python dataset_preprocess.py --process-image --multiprocessing
Загрузите набор данных RWTH-PHOENIX-Weather 2014 [ссылка для скачивания]
После завершения загрузки набора данных извлеките его. Предлагается сделать мягкую ссылку на загруженный набор данных.
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
Исходная последовательность изображений имеет размер 210x260, для увеличения мы изменяем ее размер до 256x256. Запустите следующую команду, чтобы сгенерировать словарь глянца и изменить размер последовательности изображений.
cd ./preprocess
python dataset_preprocess-T.py --process-image --multiprocessing
Запросите набор данных CSL на этом веб-сайте [ссылка для скачивания]
После завершения загрузки набора данных извлеките его. Предлагается сделать мягкую ссылку на загруженный набор данных.
ln -s PATH_TO_DATASET ./dataset/CSL
Исходная последовательность изображений имеет размер 1280x720, для увеличения мы изменяем ее размер до 256x256. Запустите следующую команду, чтобы сгенерировать словарь глянца и изменить размер последовательности изображений.
cd ./preprocess
python dataset_preprocess-CSL.py --process-image --multiprocessing
Запросите набор данных CSL-Daily на этом веб-сайте [ссылка для скачивания]
После завершения загрузки набора данных извлеките его. Предлагается сделать мягкую ссылку на загруженный набор данных.
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
Исходная последовательность изображений имеет размер 1280x720, для увеличения мы изменяем ее размер до 256x256. Запустите следующую команду, чтобы сгенерировать словарь глянца и изменить размер последовательности изображений.
cd ./preprocess
python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
Магистраль | Разработчик WER | Тест WER | Предварительно обученная модель |
---|---|---|---|
Реснет18 | 18,5% | 18,8% | [Baidu] (пароль: enyp) [Google Диск] |
Магистраль | Разработчик WER | Тест WER | Предварительно обученная модель |
---|---|---|---|
Реснет18 | 18,6% | 18,9% | [Baidu] (пароль: pfk1) [Google Диск] |
Магистраль | Разработчик WER | Тест WER | Предварительно обученная модель |
---|---|---|---|
Реснет18 | 26,7% | 26,3% | [Baidu] (пароль: kbu4) [Google Диск] |
Чтобы оценить предварительно обученную модель, сначала выберите набор данных из phoenix2014/phoenix2014-T/CSL/CSL-Daily в строке 3 файла ./config/baseline.yaml и выполните команду ниже:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
Приоритеты файлов конфигурации: командная строка > файл конфигурации > значения argparse по умолчанию. Чтобы обучить модель SLR, выполните команду ниже:
python main.py --device your_device
Обратите внимание, что вы можете выбрать целевой набор данных из phoenix2014/phoenix2014-T/CSL/CSL-Daily в строке 3 файла ./config/baseline.yaml.