Anda Melihat Apa yang Anda Pikirkan? Atau Anda Memikirkan Apa yang Anda Lihat? Tolok Ukur Penalaran Konteks Gambar yang Menantang untuk GPT-4V(ision), LLaVA-1.5, dan Model Multi-modalitas Lainnya
Tianrui Guan*, Fuxiao Liu*, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou
Model bahasa besar (LLM), setelah diselaraskan dengan model visi dan diintegrasikan ke dalam model bahasa visi (VLM), dapat memberikan peningkatan yang mengesankan dalam tugas penalaran gambar. Hal ini ditunjukkan oleh GPT-4V(ison), LLaVA-1.5, dll yang baru saja dirilis. Namun, bahasa kuat yang digunakan dalam LVLM SOTA ini dapat menjadi pedang bermata dua: mereka mungkin mengabaikan konteks gambar dan hanya mengandalkan ( bahkan kontradiktif) bahasa sebelum penalaran. Sebaliknya, modul visi di VLM lebih lemah dibandingkan LLM dan dapat menghasilkan representasi visual yang menyesatkan, yang kemudian diterjemahkan menjadi kesalahan yang meyakinkan oleh LLM. Untuk mempelajari dua jenis kesalahan VLM ini, yaitu halusinasi bahasa dan ilusi visual, kami menyusun HallusionBench, sebuah tolok ukur penalaran konteks gambar yang masih menantang bahkan untuk GPT-4V dan LLaVA-1.5. Kami memberikan analisis contoh secara mendetail di HallusionBench, yang memberikan wawasan baru tentang ilusi atau halusinasi VLM dan cara memperbaikinya di masa depan.
Jika Anda merasa makalah kami bermanfaat, silakan kutip makalah kami:
@misc { wu2024autohallusion ,
title = { AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models } ,
author = { Xiyang Wu and Tianrui Guan and Dianqi Li and Shuaiyi Huang and Xiaoyu Liu and Xijun Wang and Ruiqi Xian and Abhinav Shrivastava and Furong Huang and Jordan Lee Boyd-Graber and Tianyi Zhou and Dinesh Manocha } ,
year = { 2024 } ,
eprint = { 2406.10900 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2406.10900 } ,
}
@InProceedings { Guan_2024_CVPR ,
author = { Guan, Tianrui and Liu, Fuxiao and Wu, Xiyang and Xian, Ruiqi and Li, Zongxia and Liu, Xiaoyu and Wang, Xijun and Chen, Lichang and Huang, Furong and Yacoob, Yaser and Manocha, Dinesh and Zhou, Tianyi } ,
title = { HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 } ,
pages = { 14375-14385 }
}
@misc { liu2023mitigating ,
title = { Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning } ,
author = { Fuxiao Liu and Kevin Lin and Linjie Li and Jianfeng Wang and Yaser Yacoob and Lijuan Wang } ,
year = { 2023 } ,
eprint = { 2306.14565 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV }
}
@misc { liu2023mmc ,
title = { MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning } ,
author = { Fuxiao Liu and Xiaoyang Wang and Wenlin Yao and Jianshu Chen and Kaiqiang Song and Sangwoo Cho and Yaser Yacoob and Dong Yu } ,
year = { 2023 } ,
eprint = { 2311.10774 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}
Untuk mempermudah evaluasi, kami hanya menyediakan pertanyaan dalam bentuk pertanyaan ya/tidak.
Diperbarui pada | Pertanyaan dan Anotasi | Angka | Jumlah Pertanyaan | Jumlah Gambar |
---|---|---|---|---|
27 Oktober 2023 | HalusiBench.json | halusinasi_bench.zip | 254 | 69 |
git clone https://github.com/tianyi-lab/HallusionBench.git
cd ./HallusionBench
Unduh gambar hallusion_bench.zip dan unzip folder di direktori yang sama.
Pertanyaan dan lokasi gambar disimpan di ./HallusionBench.json
. Sampel datanya adalah sebagai berikut:
{'category': 'VD', 'subcategory': 'illusion', 'visual_input': '1', 'set_id': '0', 'figure_id': '0', 'sample_note': 'circle', 'question_id': '0', 'question': 'Is the right orange circle the same size as the left orange circle?', 'gt_answer_details': 'The right orange circle is the same size as the left orange circle.', 'gt_answer': '1', 'filename': './hallusion_bench/VD/illusion/0_0.png'}
Kuncinya visual_input
berarti apakah pertanyaan memerlukan masukan visual seperti gambar. Jika visual_input=1
, berarti pertanyaan memerlukan masukan visual. Jika visual_input=0
, berarti pertanyaan tidak memerlukan masukan visual. Ini adalah pertanyaan teks saja.
./HallusionBench.json
dan simpan file keluaran sebagai ./HallusionBench_result.json
. Anda perlu menambahkan keluaran model Anda di kunci 'model_prediction'
. Kami memberikan contoh hasil di sini. python evaluation.py
Anda dapat menggunakan kunci API Anda sendiri untuk evaluasi GPT4 dengan mengedit kode di sini.
Model | Pasangan Soal Acc | Gambar Acc | Pertanyaan Mudah Acc | Pertanyaan Sulit Acc | Pertanyaan Acc | Jason |
---|---|---|---|---|---|---|
GPT4V Versi 25 September 2023 (Eval Manusia) | 31.42 | 44.22 | 79.56 | 38.37 | 67.58 | VD, VS |
GPT4V Versi 25 September 2023 (Evaluasi GPT) | 28.79 | 39.88 | 75.60 | 37.67 | 65.28 | VD, VS |
Claude 3 (Evaluasi GPT) | 21.76 | 28.61 | 55.16 | 41.40 | 56.86 | VD, VS |
LLaVA-1.5 (Eval Manusia) | 9.45 | 25.43 | 50,77 | 29.07 | 47.12 | VD, VS |
LLaVA-1.5 (Evaluasi GPT) | 10.55 | 24.86 | 49.67 | 29.77 | 46.94 | VD, VS |
Visi Gemini Pro Versi Desember 2023 (Evaluasi GPT) | 7.69 | 8.67 | 35.60 | 30.23 | 36.85 | VD, VS |
GUA_VL (Evaluasi GPT) | 16.70 | 23.12 | 53.63 | 39.77 | 51.82 | VD, VS |
BLIP2-T5 (Evaluasi GPT) | 15.16 | 20.52 | 45.49 | 43.49 | 48.09 | VD, VS |
Qwen-VL (Evaluasi GPT) | 5.93 | 6.65 | 31.43 | 24.88 | 39.15 | VD, VS |
Flamingo Terbuka (Evaluasi GPT) | 6.37 | 11.27 | 39.56 | 27.21 | 38.44 | VD, VS |
MiniGPT5 (Evaluasi GPT) | 10.55 | 9.83 | 36.04 | 28.37 | 40.30 | VD, VS |
MiniGPT4 (Evaluasi GPT) | 8.79 | 10.12 | 31.87 | 27.67 | 35.78 | VD, VS |
InstruksikanBLIP (Evaluasi GPT) | 9.45 | 10.11 | 35.60 | 45.12 | 45.26 | VD, VS |
BLIP2 (Evaluasi GPT) | 5.05 | 12.43 | 33.85 | 40.70 | 40.48 | VD, VS |
mPLUG_Owl-v2 (Evaluasi GPT) | 13.85 | 19.94 | 44.84 | 39.07 | 47.30 | VD, VS |
mPLUG_Burung Hantu-v1 (Evaluasi GPT) | 9.45 | 10.40 | 39.34 | 29.77 | 43.93 | VD, VS |
LRV_Instruksi (Evaluasi GPT) | 8.79 | 13.01 | 39.78 | 27.44 | 42.78 | VD, VS |
buruk (Evaluasi GPT) | 8.3516 | 11.2717 | 37.8022 | 45.3488 | 44.4641 | VD, VS |
GiT (Evaluasi GPT) | 5.27 | 6.36 | 26.81 | 31.86 | 34.37 | VD, VS |
Kami menyimpan keluaran GPT4V dengan anotasi kami. Letakkan HallusionBench.tsv
di direktori root repo ini, atau setel input_file_name
di gpt4v_benchmark.py ke lokasi file HallusionBench.tsv.
(Opsional) Jika Anda tidak memiliki akses ke GPT API, Anda tidak perlu menjalankannya karena kami telah menyimpan hasil evaluasi. Mereka dapat diunduh untuk Visual Dependent dan Visual Supplement. Letakkan file json di direktori root repo ini, atau setel save_json_path_vd
dan save_json_path_vd
di gpt4v_benchmark.py ke lokasinya masing-masing.
Jalankan python gpt4v_benchmark.py
.
Repositori ini berada di bawah Lisensi 3-Klausul BSD.