هذا المستودع هو تطبيق رسمي للورقة التي تحمل عنوان أعلاه. يرجى الرجوع إلى صفحة المشروع أو الورقة لمزيد من التفاصيل.
نحن نتحقق من إمكانية تكرار نتائج في ظل هذه البيئة.
تثبيت تبعيات بايثون. ربما يجب أن يتم ذلك داخل venv
.
pip install -r requirements.txt
لاحظ أن Tensorflow لديه متطلبات نظام خاصة بالإصدار لبيئة GPU. تحقق من تثبيت وقت تشغيل CUDA/CuDNN المتوافق.
لتجربة العرض التوضيحي على النماذج المدربة مسبقًا
./data
../results
.يمكنك اختبار بعض المهام باستخدام النماذج المدربة مسبقًا في دفتر الملاحظات.
يمكنك تدريب النموذج الخاص بك. يأخذ البرنامج النصي للمدرب بعض الحجج للتحكم في المعلمات الفائقة. راجع src/mfp/mfp/args.py
للحصول على قائمة بالخيارات المتاحة. إذا أدى البرنامج النصي إلى إبطاء خطأ نفاد الذاكرة، فيرجى التأكد من أن العمليات الأخرى لا تشغل ذاكرة وحدة معالجة الرسومات وضبط --batch_size
.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
يقوم المدرب بإخراج السجلات ونتائج التقييم ونقاط التفتيش إلى tmp/mfp/jobs/<job_id>
. يمكن مراقبة تقدم التدريب عن طريق tensorboard
.
تقوم بإجراء التقييم الكمي.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
راجع eval.py لـ <ADDITIONAL_ARGS>
.
يمكنك اختبار بعض المهام باستخدام النماذج المدربة مسبقًا في دفتر الملاحظات.
العملية مشابهة تقريبًا لما هو مذكور أعلاه.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
العملية مشابهة لما ورد أعلاه.
إذا وجدت هذا الكود مفيدًا لبحثك، فيرجى الاستشهاد بمقالتنا.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}