Este repositorio es una implementación oficial del documento titulado anteriormente. Consulte la página del proyecto o el documento para obtener más detalles.
Comprobamos la reproducibilidad en este entorno.
Instalar dependencias de Python. Quizás esto debería hacerse dentro de venv
.
pip install -r requirements.txt
Tenga en cuenta que Tensorflow tiene un requisito de sistema específico de la versión para el entorno de GPU. Compruebe si está instalado el tiempo de ejecución CUDA/CuDNN compatible.
Para probar la demostración en modelos previamente entrenados
./data
../results
.Puede probar algunas tareas utilizando los modelos previamente entrenados en el cuaderno.
Puedes entrenar tu propio modelo. El script del entrenador requiere algunos argumentos para controlar los hiperparámetros. Consulte src/mfp/mfp/args.py
para obtener la lista de opciones disponibles. Si el script ralentiza un error de falta de memoria, asegúrese de que otros procesos no ocupen la memoria de la GPU y ajuste --batch_size
.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
El formador genera registros, resultados de evaluación y puntos de control en tmp/mfp/jobs/<job_id>
. El progreso del entrenamiento se puede controlar mediante tensorboard
.
Realizas evaluación cuantitativa.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
Consulte eval.py para <ADDITIONAL_ARGS>
.
Puede probar algunas tareas utilizando los modelos previamente entrenados en el cuaderno.
El proceso es casi similar al anterior.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
El proceso es similar al anterior.
Si encuentra este código útil para su investigación, cite nuestro artículo.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}