flex dm
1.0.0
該存儲庫是上述論文的官方實作。請參閱專案頁面或論文以了解更多詳細資訊。
我們檢查該環境下的再現性。
安裝 python 依賴項。也許這應該在venv
內部完成。
pip install -r requirements.txt
請注意,Tensorflow 對 GPU 環境有特定版本的系統需求。檢查是否安裝了相容的 CUDA/CuDNN 運行時。
嘗試在預訓練模型上進行演示
./data
下。./results
下。您可以使用筆記本中預先訓練的模型來測試一些任務。
您可以訓練自己的模型。訓練器腳本採用一些參數來控制超參數。有關可用選項的列表,請參閱src/mfp/mfp/args.py
。如果腳本減慢出現記憶體不足錯誤,請確保其他進程不佔用GPU記憶體並調整--batch_size
。
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
訓練器將日誌、評估結果和檢查點輸出到tmp/mfp/jobs/<job_id>
。可透過tensorboard
監控訓練進度。
您進行定量評估。
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
請參閱 eval.py 以了解<ADDITIONAL_ARGS>
。
您可以使用筆記本中預先訓練的模型來測試一些任務。
該過程與上面幾乎類似。
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
該過程與上面類似。
如果您發現此程式碼對您的研究有用,請引用我們的論文。
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}