Ce référentiel est une implémentation officielle de l'article intitulé ci-dessus. Veuillez vous référer à la page ou au document du projet pour plus de détails.
Nous vérifions la reproductibilité dans cet environnement.
Installez les dépendances Python. Cela devrait peut-être être fait dans venv
.
pip install -r requirements.txt
Notez que Tensorflow a une configuration système spécifique à la version pour l'environnement GPU. Vérifiez si le runtime compatible CUDA/CuDNN est installé.
Pour essayer une démo sur des modèles pré-entraînés
./data
../results
.Vous pouvez tester certaines tâches à l'aide des modèles pré-entraînés dans le notebook.
Vous pouvez former votre propre modèle. Le script du formateur prend quelques arguments pour contrôler les hyperparamètres. Voir src/mfp/mfp/args.py
pour la liste des options disponibles. Si le script ralentit une erreur de mémoire insuffisante, assurez-vous que d'autres processus n'occupent pas la mémoire GPU et ajustez --batch_size
.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
Le formateur génère des journaux, des résultats d'évaluation et des points de contrôle dans tmp/mfp/jobs/<job_id>
. Les progrès de la formation peuvent être surveillés via tensorboard
.
Vous effectuez une évaluation quantitative.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
Voir eval.py pour <ADDITIONAL_ARGS>
.
Vous pouvez tester certaines tâches à l'aide des modèles pré-entraînés dans le notebook.
Le processus est presque similaire à celui ci-dessus.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
Le processus est similaire à celui ci-dessus.
Si vous trouvez ce code utile pour votre recherche, veuillez citer notre article.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}