LLaVAR: Penyempurnaan Instruksi Visual untuk Pemahaman Gambar Kaya Teks
Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
Halaman Proyek
Tautan Arxiv
@misc{zhang2023llavar,
title={LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding},
author={Yanzhe Zhang and Ruiyi Zhang and Jiuxiang Gu and Yufan Zhou and Nedim Lipka and Diyi Yang and Tong Sun},
year={2023},
eprint={2306.17107},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
[PEMBARUAN 08/01] Lihat pos pemeriksaan model yang siap digunakan dan penyempurnaan kumpulan data dari komunitas di Huggingface!
[UPDATE 21/07] Rilis metadata gambar LAION yang digunakan: pretrain/finetune.
[UPDATE 07/12] Rilis hasil evaluasi/script OCR pada benchmark MME. LLaVAR meningkatkan skor OCR LLaVA dari 50 menjadi 80.
[UPDATE 07/05] Data tersedia di Huggingface?.
[UPDATE 07/05] Model Weight Delta di Huggingface?.
[PEMBARUAN 29/06] Rilis Awal.
Perbedaan utama antara kode kami dan kode LLaVA adalah kami memodifikasi file pelatihan/pengujian/penyajian untuk mendukung Vicuna v1.1, yang menggunakan '</s>' sebagai pemisah, bukan '###'.
Harap siapkan lingkungan/gabungkan bobot model berikut LLaVA.
Model Berat Delta: Google Drive, Huggingface
Ini harus digabungkan dengan LLaMA-13B.
Setelah penggabungan, tambahkan "v1" ke nama folder Anda dan pastikan mode percakapan "llava_v1" digunakan.
Data gambar kami telah diubah ke dalam format prapelatihan/penyempurnaan LLaVA (Mereka memiliki nama file "palsu" dalam format CC3M dan COCO). Anda dapat mengunduhnya dan menggabungkannya ke dalam set pelatihan LLaVA.
Sebaliknya, instruksi kami sudah berisi instruksi LLaVA.
Gambar Pra-Pelatihan: Google Drive
Petunjuk Pra-Pelatihan (595K + 422K): Google Drive
Menyempurnakan Gambar: Google Drive
Petunjuk Penyempurnaan (158K + 16K): Google Drive
Petunjuk Penyempurnaan (158K + 20K): Google Drive
Kami mengumpulkan 50 pertanyaan dan jawaban mengikuti instruksi pada 50 gambar kaya teks dari LAION, yang dapat dimanfaatkan untuk Evaluasi mengikuti instruksi berbasis GPT-4.
Gambar Evaluasi: Google Drive
Konteks Evaluasi GPT-4 (595K + 422K): File
Aturan Evaluasi GPT-4: File
Pertanyaan: Berkas
Jawaban GPT-4: File
Anda harus menggabungkan gambar pra-pelatihan kami ke dalam folder cc3m.
torchrun --nnodes=1 --nproc_per_node=8 --master_port=25001
/path/to/LLaVA/llava/train/train_mem.py
--model_name_or_path /path/to/models/vicuna_13b_v1_1
--data_path /path/to/chat_llavar.json
--image_folder /path/to/cc3m
--vision_tower openai/clip-vit-large-patch14-336
--tune_mm_mlp_adapter True
--mm_vision_select_layer -2
--mm_use_im_start_end
--bf16 True
--output_dir /path/to/checkpoint
--num_train_epochs 1
--per_device_train_batch_size 8
--per_device_eval_batch_size 4
--gradient_accumulation_steps 2
--evaluation_strategy " no "
--save_strategy " steps "
--save_steps 4000
--save_total_limit 1
--learning_rate 2e-3
--weight_decay 0.
--warmup_ratio 0.03
--lr_scheduler_type " cosine "
--logging_steps 1
--tf32 True
--model_max_length 1024
--gradient_checkpointing True
--lazy_preprocess True
--image_aspect_ratio ' pad '
--report_to wandb
Anda harus menggabungkan gambar finetuning kami ke dalam folder coco2017.
torchrun --nnodes=1 --nproc_per_node=8 --master_port=25001
/path/to/LLaVA/llava/train/train_mem.py
--model_name_or_path /path/to/models/vicuna_13b_v1_1
--data_path /path/to/llava_instruct_150k_llavar_16k.json
--image_folder /path/to/coco/images/train2017
--vision_tower openai/clip-vit-large-patch14-336
--pretrain_mm_mlp_adapter /path/to/mm_proj/llava-13b-pretrain.bin
--mm_vision_select_layer -2
--mm_use_im_start_end True
--bf16 True
--output_dir /path/to/checkpoint
--num_train_epochs 3
--per_device_train_batch_size 4
--per_device_eval_batch_size 4
--gradient_accumulation_steps 1
--evaluation_strategy " no "
--save_strategy " steps "
--save_steps 8000
--save_total_limit 1
--learning_rate 2e-5
--weight_decay 0.
--warmup_ratio 0.03
--lr_scheduler_type " cosine "
--logging_steps 1
--tf32 True
--fsdp " full_shard auto_wrap "
--fsdp_transformer_layer_cls_to_wrap ' LlamaDecoderLayer '
--model_max_length 2048
--gradient_checkpointing True
--lazy_preprocess True
--image_aspect_ratio ' pad '
--report_to wandb
Mengikuti instruksi pada gambar COCO.
python /path/to/LLaVA/llava/eval/model_vqa.py
--model-name /path/to/checkpoint
--question-file
/path/to/LLaVA/playground/data/coco2014_val_qa_eval/qa90_questions.jsonl
--image-folder
/path/to/coco2014/val2014
--answers-file
/path/to/qa90-answer-file.jsonl
--conv-mode "llava_v1"
Mengikuti instruksi pada URL gambar yang diberikan.
python -m llava.eval.run_llava
--model-name /path/to/checkpoint
--image-file "https://cdn.shopify.com/s/files/1/0057/3728/3618/products/a-man-called-otto_ezrjr0pm_480x.progressive.jpg"
--query "Who starred in the movie?"
Untuk VQA berbasis teks (dari MultimodalOCR): setelah mengkloning repo dan menyiapkan data, Anda dapat meletakkan ./MultimodalOCR/Eval_LLaVAR.py
di /your/path/to/MultimodalOCR/models/LLaVA/
dan menambahkan model kita ke /your/path/to/MultimodalOCR/eval.py
untuk evaluasi.
Basis kode sebagian besar berasal dari proyek LLaVA. Evaluasi kami juga didasarkan pada proyek MultimodalOCR.
Untuk dekoder bahasa yang lebih baik, Anda juga dapat memperhatikan pembaruan model Vicuna terkini.
@article{liu2023llava,
author = {Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
title = {Visual Instruction Tuning},
publisher = {arXiv:2304.08485},
year = {2023}
}
@misc{liu2023hidden,
title={On the Hidden Mystery of OCR in Large Multimodal Models},
author={Yuliang Liu and Zhang Li and Hongliang Li and Wenwen Yu and Yang Liu and Biao Yang and Mingxin Huang and Dezhi Peng and Mingyu Liu and Mingrui Chen and Chunyuan Li and Xucheng Yin and Cheng-lin Liu and Lianwen Jin and Xiang Bai},
year={2023},
eprint={2305.07895},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{vicuna2023,
title = {Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality},
url = {https://lmsys.org/blog/2023-03-30-vicuna/},
author = {Chiang, Wei-Lin and Li, Zhuohan and Lin, Zi and Sheng, Ying and Wu, Zhanghao and Zhang, Hao and Zheng, Lianmin and Zhuang, Siyuan and Zhuang, Yonghao and Gonzalez, Joseph E. and Stoica, Ion and Xing, Eric P.},
month = {March},
year = {2023}
}