HallusionBench下载 - HallusionBench源码下载

HallusionBench

其他源码

1.0.0

下载

HallusionBench：大型视觉语言模型中纠缠语言幻觉和视觉错觉的高级诊断套件 [CVPR 2024]

你看到你的想法了吗？或者你认为你所看到的是什么？ GPT-4V(ision)、LLaVA-1.5 和其他多模态模型的图像上下文推理基准挑战

天瑞关*、刘福晓*、吴希阳、冼瑞琪、李宗霞、刘晓宇、王希军、陈立昌、黄芙蓉、Yaser Yacoob、Dinesh Manocha、周天一

更新

[09/20] 我们的论文“AutoHallusion：AutoHallusion Benchmarks for Vision-Language Models的自动生成”被EMNLP 2024接收。我们的代码和数据可以在 github 上找到。
[03/13] 我们的论文“MMC: Advancing Multimodal Chart Understanding with LLMInstruction Tuning”被NAACL 2024接收。
[02/26] 我们的 HallusionBench 被CVPR 2024接受。
[01/15] 我们的工作“Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning”被ICLR 2024接收。
[11/28] 论文全文已上传，可在此处访问。数据集已扩展，排行榜已更新。
[11/13] LLaVA-1.5评估结果更新。更多模型结果即将推出！
[10/27]排行榜及评测代码出炉！欢迎在我们的排行榜上更新您的模型！
[10/24] 包含案例分析和见解的早期报告可在此处获取。

欢迎大家将大型多模态模型（GPT-4V）的失败案例贡献给我们的社区！

大型语言模型（LLM）在与视觉模型对齐并集成到视觉语言模型（VLM）中后，可以为图像推理任务带来令人印象深刻的改进。最近发布的 GPT-4V(ison)、LLaVA-1.5 等就证明了这一点。然而，这些 SOTA LVLM 中的强语言先验可能是一把双刃剑：它们可能会忽略图像上下文并仅仅依赖于 (甚至是矛盾的）语言先于推理。相比之下，VLM 中的视觉模块比 LLM 弱，可能会导致误导性的视觉表示，然后由 LLM 转化为自信的错误。为了研究这两类 VLM 错误，即语言幻觉和视错觉，我们策划了 HallusionBench，这是一个图像上下文推理基准，即使对 GPT-4V 和 LLaVA-1.5 来说仍然具有挑战性。我们对 HallusionBench 中的示例进行了详细分析，为 VLM 的幻觉或幻觉以及未来如何改进它们提供了新颖的见解。

如果您发现我们的论文有用，请引用我们的论文：

 @misc { wu2024autohallusion ,
      title = { AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models } , 
      author = { Xiyang Wu and Tianrui Guan and Dianqi Li and Shuaiyi Huang and Xiaoyu Liu and Xijun Wang and Ruiqi Xian and Abhinav Shrivastava and Furong Huang and Jordan Lee Boyd-Graber and Tianyi Zhou and Dinesh Manocha } ,
      year = { 2024 } ,
      eprint = { 2406.10900 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV } ,
      url = { https://arxiv.org/abs/2406.10900 } , 
}
@InProceedings { Guan_2024_CVPR ,
    author    = { Guan, Tianrui and Liu, Fuxiao and Wu, Xiyang and Xian, Ruiqi and Li, Zongxia and Liu, Xiaoyu and Wang, Xijun and Chen, Lichang and Huang, Furong and Yacoob, Yaser and Manocha, Dinesh and Zhou, Tianyi } ,
    title     = { HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models } ,
    booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
    month     = { June } ,
    year      = { 2024 } ,
    pages     = { 14375-14385 }
}
@misc { liu2023mitigating ,
      title = { Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning } , 
      author = { Fuxiao Liu and Kevin Lin and Linjie Li and Jianfeng Wang and Yaser Yacoob and Lijuan Wang } ,
      year = { 2023 } ,
      eprint = { 2306.14565 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}
@misc { liu2023mmc ,
      title = { MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning } , 
      author = { Fuxiao Liu and Xiaoyang Wang and Wenlin Yao and Jianshu Chen and Kaiqiang Song and Sangwoo Cho and Yaser Yacoob and Dong Yu } ,
      year = { 2023 } ,
      eprint = { 2311.10774 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

数据集下载

为了使评估简单，我们仅以是/否问题的形式提供问题。

更新于	问题和注释	人物	问题数	人物数量
2023 年 10 月 27 日	HallusionBench.json	幻觉_bench.zip	第254章	69

评估

克隆存储库。

 git clone https://github.com/tianyi-lab/HallusionBench.git
cd ./HallusionBench

下载图像 Hallusion_bench.zip 并将文件夹解压缩到同一目录中。
问题和图像位置保存在./HallusionBench.json中。数据样本如下：

 {'category': 'VD', 'subcategory': 'illusion', 'visual_input': '1', 'set_id': '0', 'figure_id': '0', 'sample_note': 'circle', 'question_id': '0', 'question': 'Is the right orange circle the same size as the left orange circle?', 'gt_answer_details': 'The right orange circle is the same size as the left orange circle.', 'gt_answer': '1', 'filename': './hallusion_bench/VD/illusion/0_0.png'}

关键的visual_input表示问题是否需要图像等视觉输入。如果visual_input=1 ，则表示该问题需要视觉输入。如果visual_input=0 ，则表示该问题不需要视觉输入。这是纯文本问题。

在./HallusionBench.json上运行模型并将输出文件保存为./HallusionBench_result.json 。您需要在键'model_prediction'中添加模型的输出。我们在此提供示例结果。
最后，运行以下代码进行评估：

 python evaluation.py

您可以通过编辑此处的代码，使用自己的 API 密钥进行 GPT4 评估。

排行榜

定义

视觉相关（VD）问题：没有视觉背景就没有肯定答案的问题。
- 简单：从互联网获得的原始图像。
- 硬：根据原始图像编辑图像。
视觉补充（VS）问题：无需视觉输入即可回答的问题；视觉组件仅提供补充信息。
- 简单：没有视觉输入。没有幻觉的不确定答案也被认为是正确答案。
- 硬：通过视觉输入。答案必须遵循提供的图形和视觉上下文。

公制

每个图形的准确性（一致性测试） ：基于每个图形的准确性。为了确保模型真正理解图像，我们基于同一图形上的相同知识提出不同的问题，如果模型能够正确回答所有问题，则认为它是正确的。例如，模型不应该对“A 比 B 大吗？”的问题给出不一致的回答。和“B比A小吗？”。
每个问题的准确性：所有问题的准确性，包括简单问题和困难问题。
每个问题对的准确性：我们对相似图像（或有图像和无图像）提出相同的问题。我们将不同视觉上下文中的相同问题文本视为问题对（通常它们带有一个简单问题和相应的困难问题）。该指标计算所有问题对的准确性。

模型	问题对 Acc	图 Acc	简单问题ACC	困难问题 Acc	问题附件	杰森
GPT4V 2023 年 9 月 25 日版本（人类评估）	31.42	44.22	79.56	38.37	67.58	VD、VS
GPT4V 2023 年 9 月 25 日版本（GPT 评估）	28.79	39.88	75.60	37.67	65.28	VD、VS
克劳德 3 （GPT 评估）	21.76	28.61	55.16	41.40	56.86	VD、VS
LLaVA-1.5 （人类评估）	9.45	25.43	50.77	29.07	47.12	VD、VS
LLaVA-1.5 （GPT 评估）	10.55	24.86	49.67	29.77	46.94	VD、VS
双子座专业视觉 2023 年 12 月版本（GPT 评估）	7.69	8.67	35.60	30.23	36.85	VD、VS
GUA_VL （GPT 评估）	16.70	23.12	53.63	39.77	51.82	VD、VS
BLIP2-T5 （GPT 评估）	15.16	20.52	45.49	43.49	48.09	VD、VS
Qwen-VL （GPT 评估）	5.93	6.65	31.43	24.88	39.15	VD、VS
开放式火烈鸟（GPT 评估）	6.37	11.27	39.56	27.21	38.44	VD、VS
迷你GPT5 （GPT 评估）	10.55	9.83	36.04	28.37	40.30	VD、VS
迷你GPT4 （GPT 评估）	8.79	10.12	31.87	27.67	35.78	VD、VS
指导BLIP （GPT 评估）	9.45	10.11	35.60	45.12	45.26	VD、VS
BLIP2 （GPT 评估）	5.05	12.43	33.85	40.70	40.48	VD、VS
mPLUG_Owl-v2 （GPT 评估）	13.85	19.94	44.84	39.07	47.30	VD、VS
mPLUG_Owl-v1 （GPT 评估）	9.45	10.40	39.34	29.77	43.93	VD、VS
LRV_指令（GPT 评估）	8.79	13.01	39.78	27.44	42.78	VD、VS
维LT （GPT 评估）	8.3516	11.2717	37.8022	45.3488	44.4641	VD、VS
吉特（GPT 评估）	5.27	6.36	26.81	31.86	34.37	VD、VS

在排行榜上重现 GPT4V 结果

我们使用注释保存了 GPT4V 的输出。将HallusionBench.tsv放入此存储库的根目录中，或将 gpt4v_benchmark.py 中的input_file_name设置为 HallusionBench.tsv 文件的位置。
（可选）如果您无权访问 GPT API，则无需运行它，因为我们已保存评估结果。可以下载它们作为 Visual Dependent 和 Visual Supplement。将json文件放在这个repo的根目录下，或者将gpt4v_benchmark.py中的save_json_path_vd和save_json_path_vd设置到各自的位置。
运行python gpt4v_benchmark.py 。