你看到你的想法了吗?或者你认为你所看到的是什么? GPT-4V(ision)、LLaVA-1.5 和其他多模态模型的图像上下文推理基准挑战
天瑞关*、刘福晓*、吴希阳、冼瑞琪、李宗霞、刘晓宇、王希军、陈立昌、黄芙蓉、Yaser Yacoob、Dinesh Manocha、周天一
大型语言模型(LLM)在与视觉模型对齐并集成到视觉语言模型(VLM)中后,可以为图像推理任务带来令人印象深刻的改进。最近发布的 GPT-4V(ison)、LLaVA-1.5 等就证明了这一点。然而,这些 SOTA LVLM 中的强语言先验可能是一把双刃剑:它们可能会忽略图像上下文并仅仅依赖于 (甚至是矛盾的)语言先于推理。相比之下,VLM 中的视觉模块比 LLM 弱,可能会导致误导性的视觉表示,然后由 LLM 转化为自信的错误。为了研究这两类 VLM 错误,即语言幻觉和视错觉,我们策划了 HallusionBench,这是一个图像上下文推理基准,即使对 GPT-4V 和 LLaVA-1.5 来说仍然具有挑战性。我们对 HallusionBench 中的示例进行了详细分析,为 VLM 的幻觉或幻觉以及未来如何改进它们提供了新颖的见解。
如果您发现我们的论文有用,请引用我们的论文:
@misc { wu2024autohallusion ,
title = { AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models } ,
author = { Xiyang Wu and Tianrui Guan and Dianqi Li and Shuaiyi Huang and Xiaoyu Liu and Xijun Wang and Ruiqi Xian and Abhinav Shrivastava and Furong Huang and Jordan Lee Boyd-Graber and Tianyi Zhou and Dinesh Manocha } ,
year = { 2024 } ,
eprint = { 2406.10900 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2406.10900 } ,
}
@InProceedings { Guan_2024_CVPR ,
author = { Guan, Tianrui and Liu, Fuxiao and Wu, Xiyang and Xian, Ruiqi and Li, Zongxia and Liu, Xiaoyu and Wang, Xijun and Chen, Lichang and Huang, Furong and Yacoob, Yaser and Manocha, Dinesh and Zhou, Tianyi } ,
title = { HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 } ,
pages = { 14375-14385 }
}
@misc { liu2023mitigating ,
title = { Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning } ,
author = { Fuxiao Liu and Kevin Lin and Linjie Li and Jianfeng Wang and Yaser Yacoob and Lijuan Wang } ,
year = { 2023 } ,
eprint = { 2306.14565 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV }
}
@misc { liu2023mmc ,
title = { MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning } ,
author = { Fuxiao Liu and Xiaoyang Wang and Wenlin Yao and Jianshu Chen and Kaiqiang Song and Sangwoo Cho and Yaser Yacoob and Dong Yu } ,
year = { 2023 } ,
eprint = { 2311.10774 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}
为了使评估简单,我们仅以是/否问题的形式提供问题。
更新于 | 问题和注释 | 人物 | 问题数 | 人物数量 |
---|---|---|---|---|
2023 年 10 月 27 日 | HallusionBench.json | 幻觉_bench.zip | 第254章 | 69 |
git clone https://github.com/tianyi-lab/HallusionBench.git
cd ./HallusionBench
下载图像 Hallusion_bench.zip 并将文件夹解压缩到同一目录中。
问题和图像位置保存在./HallusionBench.json
中。数据样本如下:
{'category': 'VD', 'subcategory': 'illusion', 'visual_input': '1', 'set_id': '0', 'figure_id': '0', 'sample_note': 'circle', 'question_id': '0', 'question': 'Is the right orange circle the same size as the left orange circle?', 'gt_answer_details': 'The right orange circle is the same size as the left orange circle.', 'gt_answer': '1', 'filename': './hallusion_bench/VD/illusion/0_0.png'}
关键的visual_input
表示问题是否需要图像等视觉输入。如果visual_input=1
,则表示该问题需要视觉输入。如果visual_input=0
,则表示该问题不需要视觉输入。这是纯文本问题。
./HallusionBench.json
上运行模型并将输出文件保存为./HallusionBench_result.json
。您需要在键'model_prediction'
中添加模型的输出。我们在此提供示例结果。 python evaluation.py
您可以通过编辑此处的代码,使用自己的 API 密钥进行 GPT4 评估。
模型 | 问题对 Acc | 图 Acc | 简单问题ACC | 困难问题 Acc | 问题附件 | 杰森 |
---|---|---|---|---|---|---|
GPT4V 2023 年 9 月 25 日版本 (人类评估) | 31.42 | 44.22 | 79.56 | 38.37 | 67.58 | VD、VS |
GPT4V 2023 年 9 月 25 日版本 (GPT 评估) | 28.79 | 39.88 | 75.60 | 37.67 | 65.28 | VD、VS |
克劳德 3 (GPT 评估) | 21.76 | 28.61 | 55.16 | 41.40 | 56.86 | VD、VS |
LLaVA-1.5 (人类评估) | 9.45 | 25.43 | 50.77 | 29.07 | 47.12 | VD、VS |
LLaVA-1.5 (GPT 评估) | 10.55 | 24.86 | 49.67 | 29.77 | 46.94 | VD、VS |
双子座专业视觉 2023 年 12 月版本 (GPT 评估) | 7.69 | 8.67 | 35.60 | 30.23 | 36.85 | VD、VS |
GUA_VL (GPT 评估) | 16.70 | 23.12 | 53.63 | 39.77 | 51.82 | VD、VS |
BLIP2-T5 (GPT 评估) | 15.16 | 20.52 | 45.49 | 43.49 | 48.09 | VD、VS |
Qwen-VL (GPT 评估) | 5.93 | 6.65 | 31.43 | 24.88 | 39.15 | VD、VS |
开放式火烈鸟 (GPT 评估) | 6.37 | 11.27 | 39.56 | 27.21 | 38.44 | VD、VS |
迷你GPT5 (GPT 评估) | 10.55 | 9.83 | 36.04 | 28.37 | 40.30 | VD、VS |
迷你GPT4 (GPT 评估) | 8.79 | 10.12 | 31.87 | 27.67 | 35.78 | VD、VS |
指导BLIP (GPT 评估) | 9.45 | 10.11 | 35.60 | 45.12 | 45.26 | VD、VS |
BLIP2 (GPT 评估) | 5.05 | 12.43 | 33.85 | 40.70 | 40.48 | VD、VS |
mPLUG_Owl-v2 (GPT 评估) | 13.85 | 19.94 | 44.84 | 39.07 | 47.30 | VD、VS |
mPLUG_Owl-v1 (GPT 评估) | 9.45 | 10.40 | 39.34 | 29.77 | 43.93 | VD、VS |
LRV_指令 (GPT 评估) | 8.79 | 13.01 | 39.78 | 27.44 | 42.78 | VD、VS |
维LT (GPT 评估) | 8.3516 | 11.2717 | 37.8022 | 45.3488 | 44.4641 | VD、VS |
吉特 (GPT 评估) | 5.27 | 6.36 | 26.81 | 31.86 | 34.37 | VD、VS |
我们使用注释保存了 GPT4V 的输出。将HallusionBench.tsv
放入此存储库的根目录中,或将 gpt4v_benchmark.py 中的input_file_name
设置为 HallusionBench.tsv 文件的位置。
(可选)如果您无权访问 GPT API,则无需运行它,因为我们已保存评估结果。可以下载它们作为 Visual Dependent 和 Visual Supplement。将json文件放在这个repo的根目录下,或者将gpt4v_benchmark.py中的save_json_path_vd
和save_json_path_vd
设置到各自的位置。
运行python gpt4v_benchmark.py
。
该存储库遵循 BSD 3-Clause 许可证。