flex dm
1.0.0
このリポジトリは、上記の論文の正式な実装です。詳細についてはプロジェクトページまたは論文を参照してください。
この環境で再現性を確認しています。
Pythonの依存関係をインストールします。おそらくこれはvenv
内で行う必要があります。
pip install -r requirements.txt
Tensorflow には、GPU 環境のバージョン固有のシステム要件があることに注意してください。互換性のある CUDA/CuDNN ランタイムがインストールされているかどうかを確認します。
事前トレーニングされたモデルでデモを試すには
./data
の下に解凍します。./results
の下に解凍します。ノートブック内の事前トレーニングされたモデルを使用して、いくつかのタスクをテストできます。
独自のモデルをトレーニングできます。トレーナー スクリプトは、ハイパーパラメータを制御するためにいくつかの引数を受け取ります。使用可能なオプションのリストについては、 src/mfp/mfp/args.py
を参照してください。スクリプトのメモリ不足エラーが遅くなる場合は、他のプロセスが GPU メモリを占有していないことを確認し、 --batch_size
調整してください。
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
トレーナーは、ログ、評価結果、チェックポイントをtmp/mfp/jobs/<job_id>
に出力します。トレーニングの進行状況はtensorboard
経由で監視できます。
定量的な評価を行います。
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
<ADDITIONAL_ARGS>
については eval.py を参照してください。
ノートブック内の事前トレーニングされたモデルを使用して、いくつかのタスクをテストできます。
プロセスは上記とほぼ同様です。
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
プロセスは上記と同様です。
このコードが研究に役立つと思われる場合は、論文を引用してください。
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}