Unduhan LLaVAR - Unduhan kode sumber LLaVAR

LLaVAR

Kode sumber lainnya

v1

Unduh

LLaVAR

LLaVAR: Penyempurnaan Instruksi Visual untuk Pemahaman Gambar Kaya Teks

Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun

Halaman Proyek

Tautan Arxiv

alt text

 @misc{zhang2023llavar,
    title={LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding},
    author={Yanzhe Zhang and Ruiyi Zhang and Jiuxiang Gu and Yufan Zhou and Nedim Lipka and Diyi Yang and Tong Sun},
    year={2023},
    eprint={2306.17107},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

[PEMBARUAN 08/01] Lihat pos pemeriksaan model yang siap digunakan dan penyempurnaan kumpulan data dari komunitas di Huggingface!

[UPDATE 21/07] Rilis metadata gambar LAION yang digunakan: pretrain/finetune.

[UPDATE 07/12] Rilis hasil evaluasi/script OCR pada benchmark MME. LLaVAR meningkatkan skor OCR LLaVA dari 50 menjadi 80.

[UPDATE 07/05] Data tersedia di Huggingface?.

[UPDATE 07/05] Model Weight Delta di Huggingface?.

[PEMBARUAN 29/06] Rilis Awal.

Perbedaan utama antara kode kami dan kode LLaVA adalah kami memodifikasi file pelatihan/pengujian/penyajian untuk mendukung Vicuna v1.1, yang menggunakan '</s>' sebagai pemisah, bukan '###'.

Pengaturan Lingkungan

Harap siapkan lingkungan/gabungkan bobot model berikut LLaVA.

Model Berat Delta: Google Drive, Huggingface

Ini harus digabungkan dengan LLaMA-13B.

Setelah penggabungan, tambahkan "v1" ke nama folder Anda dan pastikan mode percakapan "llava_v1" digunakan.

Data Pelatihan (Huggingface)

Data gambar kami telah diubah ke dalam format prapelatihan/penyempurnaan LLaVA (Mereka memiliki nama file "palsu" dalam format CC3M dan COCO). Anda dapat mengunduhnya dan menggabungkannya ke dalam set pelatihan LLaVA.

Sebaliknya, instruksi kami sudah berisi instruksi LLaVA.

Gambar Pra-Pelatihan： Google Drive

Petunjuk Pra-Pelatihan (595K + 422K): Google Drive

Menyempurnakan Gambar： Google Drive

Petunjuk Penyempurnaan (158K + 16K): Google Drive

Petunjuk Penyempurnaan (158K + 20K): Google Drive

Data Evaluasi (Huggingface)

Kami mengumpulkan 50 pertanyaan dan jawaban mengikuti instruksi pada 50 gambar kaya teks dari LAION, yang dapat dimanfaatkan untuk Evaluasi mengikuti instruksi berbasis GPT-4.

Gambar Evaluasi： Google Drive

Konteks Evaluasi GPT-4 (595K + 422K)： File

Aturan Evaluasi GPT-4： File

Pertanyaan: Berkas

Jawaban GPT-4: File

Naskah Pelatihan

Anda harus menggabungkan gambar pra-pelatihan kami ke dalam folder cc3m.

torchrun --nnodes=1 --nproc_per_node=8 --master_port=25001 
   /path/to/LLaVA/llava/train/train_mem.py 
    --model_name_or_path /path/to/models/vicuna_13b_v1_1 
    --data_path /path/to/chat_llavar.json 
    --image_folder /path/to/cc3m 
    --vision_tower openai/clip-vit-large-patch14-336 
    --tune_mm_mlp_adapter True 
    --mm_vision_select_layer -2 
    --mm_use_im_start_end 
    --bf16 True 
    --output_dir /path/to/checkpoint 
    --num_train_epochs 1 
    --per_device_train_batch_size 8 
    --per_device_eval_batch_size 4 
    --gradient_accumulation_steps 2 
    --evaluation_strategy " no " 
    --save_strategy " steps " 
    --save_steps 4000 
    --save_total_limit 1 
    --learning_rate 2e-3 
    --weight_decay 0. 
    --warmup_ratio 0.03 
    --lr_scheduler_type " cosine " 
    --logging_steps 1 
    --tf32 True 
    --model_max_length 1024 
    --gradient_checkpointing True 
    --lazy_preprocess True 
    --image_aspect_ratio ' pad ' 
    --report_to wandb

Anda harus menggabungkan gambar finetuning kami ke dalam folder coco2017.

torchrun --nnodes=1 --nproc_per_node=8 --master_port=25001 
    /path/to/LLaVA/llava/train/train_mem.py 
    --model_name_or_path /path/to/models/vicuna_13b_v1_1 
    --data_path /path/to/llava_instruct_150k_llavar_16k.json 
    --image_folder /path/to/coco/images/train2017 
    --vision_tower openai/clip-vit-large-patch14-336 
    --pretrain_mm_mlp_adapter /path/to/mm_proj/llava-13b-pretrain.bin 
    --mm_vision_select_layer -2 
    --mm_use_im_start_end True 
    --bf16 True 
    --output_dir /path/to/checkpoint 
    --num_train_epochs 3 
    --per_device_train_batch_size 4 
    --per_device_eval_batch_size 4 
    --gradient_accumulation_steps 1 
    --evaluation_strategy " no " 
    --save_strategy " steps " 
    --save_steps 8000 
    --save_total_limit 1 
    --learning_rate 2e-5 
    --weight_decay 0. 
    --warmup_ratio 0.03 
    --lr_scheduler_type " cosine " 
    --logging_steps 1 
    --tf32 True 
    --fsdp " full_shard auto_wrap " 
    --fsdp_transformer_layer_cls_to_wrap ' LlamaDecoderLayer ' 
    --model_max_length 2048 
    --gradient_checkpointing True 
    --lazy_preprocess True 
    --image_aspect_ratio ' pad ' 
    --report_to wandb

Naskah Evaluasi

Mengikuti instruksi pada gambar COCO.

 python /path/to/LLaVA/llava/eval/model_vqa.py 
    --model-name /path/to/checkpoint 
    --question-file 
    /path/to/LLaVA/playground/data/coco2014_val_qa_eval/qa90_questions.jsonl 
    --image-folder 
    /path/to/coco2014/val2014 
    --answers-file 
    /path/to/qa90-answer-file.jsonl 
    --conv-mode "llava_v1"

Mengikuti instruksi pada URL gambar yang diberikan.

 python -m llava.eval.run_llava 
    --model-name /path/to/checkpoint 
    --image-file "https://cdn.shopify.com/s/files/1/0057/3728/3618/products/a-man-called-otto_ezrjr0pm_480x.progressive.jpg" 
    --query "Who starred in the movie?"

Untuk VQA berbasis teks (dari MultimodalOCR): setelah mengkloning repo dan menyiapkan data, Anda dapat meletakkan ./MultimodalOCR/Eval_LLaVAR.py di /your/path/to/MultimodalOCR/models/LLaVA/ dan menambahkan model kita ke /your/path/to/MultimodalOCR/eval.py untuk evaluasi.

Pengakuan

Basis kode sebagian besar berasal dari proyek LLaVA. Evaluasi kami juga didasarkan pada proyek MultimodalOCR.

Untuk dekoder bahasa yang lebih baik, Anda juga dapat memperhatikan pembaruan model Vicuna terkini.

 @article{liu2023llava,
    author      = {Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
    title       = {Visual Instruction Tuning},
    publisher   = {arXiv:2304.08485},
    year        = {2023}
}

@misc{liu2023hidden,
    title={On the Hidden Mystery of OCR in Large Multimodal Models},
    author={Yuliang Liu and Zhang Li and Hongliang Li and Wenwen Yu and Yang Liu and Biao Yang and Mingxin Huang and Dezhi Peng and Mingyu Liu and Mingrui Chen and Chunyuan Li and Xucheng Yin and Cheng-lin Liu and Lianwen Jin and Xiang Bai},
    year={2023},
    eprint={2305.07895},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

@misc{vicuna2023,
    title = {Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality},
    url = {https://lmsys.org/blog/2023-03-30-vicuna/},
    author = {Chiang, Wei-Lin and Li, Zhuohan and Lin, Zi and Sheng, Ying and Wu, Zhanghao and Zhang, Hao and Zheng, Lianmin and Zhuang, Siyuan and Zhuang, Yonghao and Gonzalez, Joseph E. and Stoica, Ion and Xing, Eric P.},
    month = {March},
    year = {2023}
}

Memperluas

Informasi Tambahan

Versi v1
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-12-23
ukuran 22.77MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua