flex dm
1.0.0
이 저장소는 위 제목의 논문을 공식적으로 구현한 것입니다. 자세한 내용은 프로젝트 페이지나 논문을 참고해주세요.
이 환경에서 재현성을 확인합니다.
Python 종속성을 설치합니다. 아마도 이것은 venv
내부에서 수행되어야 할 것입니다.
pip install -r requirements.txt
Tensorflow에는 GPU 환경에 대한 버전별 시스템 요구 사항이 있습니다. 호환되는 CUDA/CuDNN 런타임이 설치되어 있는지 확인하세요.
사전 훈련된 모델에 대한 데모를 시도하려면
./data
아래에 압축을 풉니다../results
아래에 압축을 풉니다.노트북에서 사전 학습된 모델을 사용하여 일부 작업을 테스트할 수 있습니다.
자신만의 모델을 학습시킬 수 있습니다. 트레이너 스크립트는 하이퍼파라미터를 제어하기 위해 몇 가지 인수를 사용합니다. 사용 가능한 옵션 목록은 src/mfp/mfp/args.py
참조하세요. 스크립트가 메모리 부족 오류로 인해 속도가 느려지면 다른 프로세스가 GPU 메모리를 차지하지 않는지 확인하고 --batch_size
조정하세요.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
트레이너는 로그, 평가 결과 및 체크포인트를 tmp/mfp/jobs/<job_id>
에 출력합니다. 학습 진행 상황은 tensorboard
통해 모니터링할 수 있습니다.
정량적 평가를 수행합니다.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
<ADDITIONAL_ARGS>
에 대해서는 eval.py를 참조하세요.
노트북에서 사전 학습된 모델을 사용하여 일부 작업을 테스트할 수 있습니다.
과정은 위와 거의 비슷합니다.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
과정은 위와 비슷합니다.
이 코드가 연구에 유용하다고 생각되면 우리 논문을 인용해 주세요.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}