พื้นที่เก็บข้อมูลนี้เป็นการนำบทความข้างต้นไปใช้อย่างเป็นทางการ โปรดดูหน้าโครงการหรือเอกสารสำหรับรายละเอียดเพิ่มเติม
เราตรวจสอบความสามารถในการทำซ้ำภายใต้สภาพแวดล้อมนี้
ติดตั้งการพึ่งพาหลาม บางทีสิ่งนี้ควรจะทำภายใน venv
pip install -r requirements.txt
โปรดทราบว่า Tensorflow มีข้อกำหนดระบบเฉพาะเวอร์ชันสำหรับสภาพแวดล้อม GPU ตรวจสอบว่ามีการติดตั้งรันไทม์ CUDA/CuDNN ที่เข้ากันได้หรือไม่
เพื่อทดลองสาธิตโมเดลที่ผ่านการฝึกอบรมมาแล้ว
./data
data./results
คุณสามารถทดสอบงานบางอย่างได้โดยใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้าในโน้ตบุ๊ก
คุณสามารถฝึกโมเดลของคุณเองได้ สคริปต์ผู้ฝึกสอนใช้ข้อโต้แย้งสองสามข้อเพื่อควบคุมไฮเปอร์พารามิเตอร์ ดู src/mfp/mfp/args.py
สำหรับรายการตัวเลือกที่มี หากสคริปต์ทำให้ข้อผิดพลาดหน่วยความจำไม่เพียงพอช้าลง โปรดตรวจสอบให้แน่ใจว่ากระบวนการอื่นไม่ได้ใช้หน่วยความจำ GPU และปรับ --batch_size
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
ผู้ฝึกสอนจะส่งออกบันทึก ผลการประเมิน และจุดตรวจสอบไปที่ tmp/mfp/jobs/<job_id>
สามารถตรวจสอบความคืบหน้าของการฝึกได้ผ่านทาง tensorboard
คุณทำการประเมินเชิงปริมาณ
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
ดู eval.py สำหรับ <ADDITIONAL_ARGS>
คุณสามารถทดสอบงานบางอย่างได้โดยใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้าในโน้ตบุ๊ก
กระบวนการนี้เกือบจะคล้ายกันกับข้างต้น
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
กระบวนการนี้คล้ายกับข้างต้น
หากคุณพบว่าโค้ดนี้มีประโยชน์สำหรับการวิจัยของคุณ โปรดอ้างอิงเอกสารของเรา
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}