Этот репозиторий является официальной реализацией статьи, упомянутой выше. Более подробную информацию можно найти на странице проекта или в документе.
Мы проверяем воспроизводимость в этой среде.
Установите зависимости Python. Возможно, это следует сделать внутри venv
.
pip install -r requirements.txt
Обратите внимание, что Tensorflow имеет системные требования для конкретной версии для среды графического процессора. Проверьте, установлена ли совместимая среда выполнения CUDA/CuDNN.
Чтобы попробовать демо на предварительно обученных моделях
./data
../results
.Некоторые задачи можно протестировать, используя предварительно обученные модели в блокноте.
Вы можете обучить свою собственную модель. Сценарий тренера принимает несколько аргументов для управления гиперпараметрами. Список доступных опций см. в src/mfp/mfp/args.py
. Если сценарий замедляет работу из-за ошибки нехватки памяти, убедитесь, что другие процессы не занимают память графического процессора, и настройте --batch_size
.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
Тренер выводит журналы, результаты оценки и контрольные точки в tmp/mfp/jobs/<job_id>
. За ходом обучения можно следить через tensorboard
.
Вы проводите количественную оценку.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
См. eval.py для <ADDITIONAL_ARGS>
.
Некоторые задачи можно протестировать, используя предварительно обученные модели в блокноте.
Процесс практически аналогичен описанному выше.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
Процесс аналогичен описанному выше.
Если этот код окажется полезным для вашего исследования, процитируйте нашу статью.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}