LLaVAR: ضبط التعليمات المرئية المحسّنة لفهم الصور الغنية بالنص
يانزي تشانغ، رويي تشانغ، جيوشيانغ غو، يوفان تشو، نديم ليبكا، ديي يانغ، تونغ صن
صفحة المشروع
رابط اركسيف
@misc{zhang2023llavar,
title={LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding},
author={Yanzhe Zhang and Ruiyi Zhang and Jiuxiang Gu and Yufan Zhou and Nedim Lipka and Diyi Yang and Tong Sun},
year={2023},
eprint={2306.17107},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
[تحديث 08/01] تحقق من نقطة التفتيش النموذجية الجاهزة للاستخدام ومجموعة بيانات الضبط الدقيق من المجتمع على Huggingface!
[تحديث 07/21] قم بإصدار البيانات الوصفية لصور LAION المستخدمة: التدريب المسبق/الضبط الدقيق.
[تحديث 07/12] قم بإصدار نتائج/نص تقييم التعرف الضوئي على الحروف وفقًا لمعيار MME. تعمل LLaVAR على زيادة درجة التعرف الضوئي على الحروف لـ LLaVA من 50 إلى 80.
[تحديث 07/05] البيانات متاحة على Huggingface؟.
[تحديث 07/05] نموذج دلتا الوزن على Huggingface؟.
[تحديث 06/29] الإصدار الأولي.
يتمثل الاختلاف الرئيسي بين الكود الخاص بنا وكود LLaVA في أننا قمنا بتعديل ملفات التدريب/الاختبار/الخدمة لدعم Vicuna v1.1، الذي يستخدم '</s>' كفاصل بدلاً من '###'.
يرجى إعداد البيئة/دمج وزن النموذج بعد LLaVA.
دلتا وزن الموديل: Google Drive، Huggingface
يجب دمج هذا مع LLaMA-13B.
بعد الدمج، يرجى إضافة "v1" إلى اسم المجلد الخاص بك والتأكد من استخدام وضع المحادثة "llava_v1".
لقد تم بالفعل تحويل بيانات الصور الخاصة بنا إلى تنسيق التدريب المسبق/الضبط الدقيق لـ LLaVA (لديهم أسماء ملفات "مزيفة" بتنسيق CC3M وCOCO). يمكنك تنزيلها ودمجها في مجموعات تدريب LLaVA.
تعليماتنا، من ناحية أخرى، تحتوي بالفعل على تعليمات LLaVA.
صور التدريب المسبق: Google Drive
تعليمات التدريب المسبق (595 كيلو بايت + 422 كيلو بايت): جوجل درايف
ضبط الصور: Google Drive
تعليمات الضبط الدقيق (158 كيلو + 16 كيلو): جوجل درايف
تعليمات الضبط الدقيق (158 كيلو + 20 كيلو): جوجل درايف
نقوم بجمع 50 سؤالاً وإجابة عن متابعة التعليمات على 50 صورة غنية بالنصوص من LAION، والتي يمكن الاستفادة منها في تقييم متابعة التعليمات المستند إلى GPT-4.
صور التقييم: جوجل درايف
سياقات تقييم GPT-4 (595 كيلو بايت + 422 كيلو بايت): ملف
قواعد تقييم GPT-4: ملف
الأسئلة: ملف
إجابات GPT-4: ملف
يجب عليك دمج صور التدريب المسبق الخاصة بنا في مجلد cc3m.
torchrun --nnodes=1 --nproc_per_node=8 --master_port=25001
/path/to/LLaVA/llava/train/train_mem.py
--model_name_or_path /path/to/models/vicuna_13b_v1_1
--data_path /path/to/chat_llavar.json
--image_folder /path/to/cc3m
--vision_tower openai/clip-vit-large-patch14-336
--tune_mm_mlp_adapter True
--mm_vision_select_layer -2
--mm_use_im_start_end
--bf16 True
--output_dir /path/to/checkpoint
--num_train_epochs 1
--per_device_train_batch_size 8
--per_device_eval_batch_size 4
--gradient_accumulation_steps 2
--evaluation_strategy " no "
--save_strategy " steps "
--save_steps 4000
--save_total_limit 1
--learning_rate 2e-3
--weight_decay 0.
--warmup_ratio 0.03
--lr_scheduler_type " cosine "
--logging_steps 1
--tf32 True
--model_max_length 1024
--gradient_checkpointing True
--lazy_preprocess True
--image_aspect_ratio ' pad '
--report_to wandb
يجب عليك دمج صورنا الدقيقة في مجلد coco2017.
torchrun --nnodes=1 --nproc_per_node=8 --master_port=25001
/path/to/LLaVA/llava/train/train_mem.py
--model_name_or_path /path/to/models/vicuna_13b_v1_1
--data_path /path/to/llava_instruct_150k_llavar_16k.json
--image_folder /path/to/coco/images/train2017
--vision_tower openai/clip-vit-large-patch14-336
--pretrain_mm_mlp_adapter /path/to/mm_proj/llava-13b-pretrain.bin
--mm_vision_select_layer -2
--mm_use_im_start_end True
--bf16 True
--output_dir /path/to/checkpoint
--num_train_epochs 3
--per_device_train_batch_size 4
--per_device_eval_batch_size 4
--gradient_accumulation_steps 1
--evaluation_strategy " no "
--save_strategy " steps "
--save_steps 8000
--save_total_limit 1
--learning_rate 2e-5
--weight_decay 0.
--warmup_ratio 0.03
--lr_scheduler_type " cosine "
--logging_steps 1
--tf32 True
--fsdp " full_shard auto_wrap "
--fsdp_transformer_layer_cls_to_wrap ' LlamaDecoderLayer '
--model_max_length 2048
--gradient_checkpointing True
--lazy_preprocess True
--image_aspect_ratio ' pad '
--report_to wandb
التعليمات التالية على صور COCO.
python /path/to/LLaVA/llava/eval/model_vqa.py
--model-name /path/to/checkpoint
--question-file
/path/to/LLaVA/playground/data/coco2014_val_qa_eval/qa90_questions.jsonl
--image-folder
/path/to/coco2014/val2014
--answers-file
/path/to/qa90-answer-file.jsonl
--conv-mode "llava_v1"
تعليمات المتابعة على عنوان URL لصورة معينة.
python -m llava.eval.run_llava
--model-name /path/to/checkpoint
--image-file "https://cdn.shopify.com/s/files/1/0057/3728/3618/products/a-man-called-otto_ezrjr0pm_480x.progressive.jpg"
--query "Who starred in the movie?"
بالنسبة لـ VQA المستند إلى النص (من MultimodalOCR): بعد استنساخ الريبو الخاص بهم وإعداد البيانات، يمكنك وضع ./MultimodalOCR/Eval_LLaVAR.py
في /your/path/to/MultimodalOCR/models/LLaVA/
وإضافة نموذجنا إلى /your/path/to/MultimodalOCR/eval.py
للتقييم.
قاعدة الكود مأخوذة بشكل أساسي من مشروع LLaVA. تقييمنا مبني أيضًا على مشروع MultimodalOCR.
للحصول على وحدة فك ترميز لغة أفضل، يمكنك أيضًا الانتباه إلى التحديث الأخير لنموذج Vicuna.
@article{liu2023llava,
author = {Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
title = {Visual Instruction Tuning},
publisher = {arXiv:2304.08485},
year = {2023}
}
@misc{liu2023hidden,
title={On the Hidden Mystery of OCR in Large Multimodal Models},
author={Yuliang Liu and Zhang Li and Hongliang Li and Wenwen Yu and Yang Liu and Biao Yang and Mingxin Huang and Dezhi Peng and Mingyu Liu and Mingrui Chen and Chunyuan Li and Xucheng Yin and Cheng-lin Liu and Lianwen Jin and Xiang Bai},
year={2023},
eprint={2305.07895},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{vicuna2023,
title = {Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality},
url = {https://lmsys.org/blog/2023-03-30-vicuna/},
author = {Chiang, Wei-Lin and Li, Zhuohan and Lin, Zi and Sheng, Ying and Wu, Zhanghao and Zhang, Hao and Zheng, Lianmin and Zhuang, Siyuan and Zhuang, Yonghao and Gonzalez, Joseph E. and Stoica, Ion and Xing, Eric P.},
month = {March},
year = {2023}
}