flex dm
1.0.0
该存储库是上述论文的官方实现。请参阅项目页面或论文了解更多详细信息。
我们检查该环境下的再现性。
安装 python 依赖项。也许这应该在venv
内部完成。
pip install -r requirements.txt
请注意,Tensorflow 对 GPU 环境有特定于版本的系统要求。检查是否安装了兼容的 CUDA/CuDNN 运行时。
尝试在预训练模型上进行演示
./data
下。./results
下。您可以使用笔记本中预先训练的模型来测试一些任务。
您可以训练自己的模型。训练器脚本采用一些参数来控制超参数。有关可用选项的列表,请参阅src/mfp/mfp/args.py
。如果脚本减慢出现内存不足错误,请确保其他进程不占用GPU内存并调整--batch_size
。
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
训练器将日志、评估结果和检查点输出到tmp/mfp/jobs/<job_id>
。可以通过tensorboard
监控训练进度。
您进行定量评估。
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
请参阅 eval.py 了解<ADDITIONAL_ARGS>
。
您可以使用笔记本中预先训练的模型来测试一些任务。
该过程与上面几乎类似。
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
该过程与上面类似。
如果您发现此代码对您的研究有用,请引用我们的论文。
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}