Dieses Repository ist eine offizielle Implementierung des oben betitelten Dokuments. Weitere Einzelheiten finden Sie auf der Projektseite oder im Dokument.
Wir prüfen die Reproduzierbarkeit in dieser Umgebung.
Installieren Sie Python-Abhängigkeiten. Vielleicht sollte dies innerhalb von venv
erfolgen.
pip install -r requirements.txt
Beachten Sie, dass Tensorflow eine versionspezifische Systemanforderung für die GPU-Umgebung hat. Überprüfen Sie, ob die kompatible CUDA/CuDNN-Laufzeit installiert ist.
Um die Demo an vorab trainierten Modellen auszuprobieren
./data
../results
.Sie können einige Aufgaben mithilfe der vorab trainierten Modelle im Notebook testen.
Sie können Ihr eigenes Modell trainieren. Das Trainerskript benötigt einige Argumente, um Hyperparameter zu steuern. Die Liste der verfügbaren Optionen finden Sie unter src/mfp/mfp/args.py
. Wenn das Skript einen Speichermangel verlangsamt, stellen Sie bitte sicher, dass andere Prozesse keinen GPU-Speicher belegen, und passen Sie --batch_size
an.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
Der Trainer gibt Protokolle, Auswertungsergebnisse und Prüfpunkte an tmp/mfp/jobs/<job_id>
aus. Der Trainingsfortschritt kann über tensorboard
überwacht werden.
Sie führen quantitative Auswertungen durch.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
Siehe eval.py für <ADDITIONAL_ARGS>
.
Sie können einige Aufgaben mithilfe der vorab trainierten Modelle im Notebook testen.
Der Vorgang ist fast ähnlich wie oben.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
Der Vorgang ist ähnlich wie oben.
Wenn Sie diesen Code für Ihre Forschung nützlich finden, zitieren Sie bitte unseren Artikel.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}