Repositori ini merupakan implementasi resmi dari makalah berjudul di atas. Silakan merujuk ke halaman atau makalah proyek untuk lebih jelasnya.
Kami memeriksa reproduktifitas dalam lingkungan ini.
Instal dependensi python. Mungkin ini harus dilakukan di dalam venv
.
pip install -r requirements.txt
Perhatikan bahwa Tensorflow memiliki persyaratan sistem khusus versi untuk lingkungan GPU. Periksa apakah runtime CUDA/CuDNN yang kompatibel telah diinstal.
Untuk mencoba demo pada model terlatih
./data
../results
.Anda dapat menguji beberapa tugas menggunakan model terlatih di buku catatan.
Anda dapat melatih model Anda sendiri. Skrip pelatih memerlukan beberapa argumen untuk mengontrol hyperparameter. Lihat src/mfp/mfp/args.py
untuk daftar opsi yang tersedia. Jika skrip memperlambat kesalahan kehabisan memori, pastikan proses lain tidak menggunakan memori GPU dan sesuaikan --batch_size
.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
Pelatih mengeluarkan log, hasil evaluasi, dan pos pemeriksaan ke tmp/mfp/jobs/<job_id>
. Kemajuan pelatihan dapat dipantau melalui tensorboard
.
Anda melakukan evaluasi kuantitatif.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
Lihat eval.py untuk <ADDITIONAL_ARGS>
.
Anda dapat menguji beberapa tugas menggunakan model terlatih di buku catatan.
Prosesnya hampir sama seperti di atas.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
Prosesnya serupa seperti di atas.
Jika Anda merasa kode ini berguna untuk penelitian Anda, silakan kutip makalah kami.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}