Este repositorio contiene códigos del artículo: Mejora del reconocimiento continuo del lenguaje de señas con modelos de imagen adaptados. (Preimpresión) [papel]
Este repositorio está basado en VAC (ICCV 2021). ¡Muchas gracias por su gran trabajo!
Este proyecto está implementado en Pytorch (mejor >=1.13 para que sea compatible con ctcdecode o pueden existir errores). Por lo tanto, instale Pytorch primero.
ctcdecode==0.4 [lenguaje/ctcdecode], para decodificación de búsqueda de haz.
[Opcional] sclite [kaldi-asr/kaldi], instale la herramienta kaldi para obtener sclite para su evaluación. Después de la instalación, cree un enlace suave hacia sclite: mkdir ./software
ln -s PATH_TO_KALDI/tools/sctk-2.4.10/bin/sclite ./software/sclite
Puede utilizar la herramienta de evaluación de la versión de Python por conveniencia (configurando 'evaluate_tool' como 'python' en la línea 16 de ./configs/baseline.yaml), pero sclite puede proporcionar estadísticas más detalladas.
Puede instalar otros módulos necesarios realizando pip install -r requirements.txt
La implementación de CLIP y otros componentes propuestos se proporciona en ./modules/openai/model.py.
Puede elegir cualquiera de los siguientes conjuntos de datos para verificar la eficacia de AdaptSign.
Descargue el conjunto de datos RWTH-PHOENIX-Weather 2014 [enlace de descarga]. Nuestros experimentos se basan en phoenix-2014.v3.tar.gz.
Después de finalizar la descarga del conjunto de datos, extráigalo. Se sugiere crear un vínculo suave hacia el conjunto de datos descargado.
ln -s PATH_TO_DATASET/phoenix2014-release ./dataset/phoenix2014
La secuencia de imágenes original es 210x260, la redimensionamos a 256x256 para aumentarla. Ejecute el siguiente comando para generar dictado de brillo y cambiar el tamaño de la secuencia de imágenes.
cd ./preprocess
python dataset_preprocess.py --process-image --multiprocessing
Descargue el conjunto de datos RWTH-PHOENIX-Weather 2014 [enlace de descarga]
Después de finalizar la descarga del conjunto de datos, extráigalo. Se sugiere crear un vínculo suave hacia el conjunto de datos descargado.
ln -s PATH_TO_DATASET/PHOENIX-2014-T-release-v3/PHOENIX-2014-T ./dataset/phoenix2014-T
La secuencia de imágenes original es 210x260, la redimensionamos a 256x256 para aumentarla. Ejecute el siguiente comando para generar dictado de brillo y cambiar el tamaño de la secuencia de imágenes.
cd ./preprocess
python dataset_preprocess-T.py --process-image --multiprocessing
Solicite el conjunto de datos CSL desde este sitio web [enlace de descarga]
Después de finalizar la descarga del conjunto de datos, extráigalo. Se sugiere crear un vínculo suave hacia el conjunto de datos descargado.
ln -s PATH_TO_DATASET ./dataset/CSL
La secuencia de imágenes original es 1280x720, la redimensionamos a 256x256 para aumentarla. Ejecute el siguiente comando para generar dictado de brillo y cambiar el tamaño de la secuencia de imágenes.
cd ./preprocess
python dataset_preprocess-CSL.py --process-image --multiprocessing
Solicite el CSL-Daily Dataset desde este sitio web [enlace de descarga]
Después de finalizar la descarga del conjunto de datos, extráigalo. Se sugiere crear un vínculo suave hacia el conjunto de datos descargado.
ln -s PATH_TO_DATASET ./dataset/CSL-Daily
La secuencia de imágenes original es 1280x720, la redimensionamos a 256x256 para aumentarla. Ejecute el siguiente comando para generar dictado de brillo y cambiar el tamaño de la secuencia de imágenes.
cd ./preprocess
python dataset_preprocess-CSL-Daily.py --process-image --multiprocessing
Columna vertebral | Desarrollador WER | Prueba WER | Modelo previamente entrenado |
---|---|---|---|
ResNet18 | 18,5% | 18,8% | [Baidu] (contraseña: enyp) [GoogleDrive] |
Columna vertebral | Desarrollador WER | Prueba WER | Modelo previamente entrenado |
---|---|---|---|
ResNet18 | 18,6% | 18,9% | [Baidu] (contraseña: pfk1) [GoogleDrive] |
Columna vertebral | Desarrollador WER | Prueba WER | Modelo previamente entrenado |
---|---|---|---|
ResNet18 | 26,7% | 26,3% | [Baidu] (contraseña: kbu4) [GoogleDrive] |
Para evaluar el modelo previamente entrenado, primero elija el conjunto de datos de phoenix2014/phoenix2014-T/CSL/CSL-Daily en la línea 3 en ./config/baseline.yaml y ejecute el siguiente comando:
python main.py --device your_device --load-weights path_to_weight.pt --phase test
Las prioridades de los archivos de configuración son: línea de comando > archivo de configuración > valores predeterminados de argparse. Para entrenar el modelo SLR, ejecute el siguiente comando:
python main.py --device your_device
Tenga en cuenta que puede elegir el conjunto de datos de destino de phoenix2014/phoenix2014-T/CSL/CSL-Daily en la línea 3 en ./config/baseline.yaml.