Вы видите то, что думаете? Или вы думаете о том, что видите? Тест на рассуждение в контексте изображения, сложный для GPT-4V(ision), LLaVA-1.5 и других мультимодальных моделей
Тяньруй Гуань*, Фусяо Лю*, Сиянг Ву, Жуйци Сянь, Цзунся Ли, Сяоюй Лю, Сицзюнь Ван, Личан Чен, Фуронг Хуан, Ясер Якуб, Динеш Маноча, Тяньи Чжоу
Большие языковые модели (LLM), после согласования с моделями зрительного восприятия и интеграции в модели визуального языка (VLM), могут обеспечить впечатляющее улучшение задач по рассуждению изображений. Это было показано недавно выпущенными GPT-4V(ison), LLaVA-1.5 и т. д. Однако нецензурная лексика в этих SOTA LVLM может оказаться обоюдоострым мечом: они могут игнорировать контекст изображения и полагаться исключительно на ( даже противоречивый) язык, предшествующий рассуждениям. Напротив, модули видения в VLM слабее, чем в LLM, и могут привести к вводящим в заблуждение визуальным представлениям, которые затем преобразуются LLM в уверенные ошибки. Чтобы изучить эти два типа ошибок VLM, то есть языковые галлюцинации и зрительные иллюзии, мы разработали HallusionBench, тест на рассуждение в контексте изображения, который до сих пор бросает вызов даже GPT-4V и LLaVA-1.5. Мы предоставляем подробный анализ примеров в HallusionBench, который дает новое представление об иллюзиях или галлюцинациях VLM и о том, как их улучшить в будущем.
Если наша статья окажется для вас полезной, пожалуйста, процитируйте ее:
@misc { wu2024autohallusion ,
title = { AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models } ,
author = { Xiyang Wu and Tianrui Guan and Dianqi Li and Shuaiyi Huang and Xiaoyu Liu and Xijun Wang and Ruiqi Xian and Abhinav Shrivastava and Furong Huang and Jordan Lee Boyd-Graber and Tianyi Zhou and Dinesh Manocha } ,
year = { 2024 } ,
eprint = { 2406.10900 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2406.10900 } ,
}
@InProceedings { Guan_2024_CVPR ,
author = { Guan, Tianrui and Liu, Fuxiao and Wu, Xiyang and Xian, Ruiqi and Li, Zongxia and Liu, Xiaoyu and Wang, Xijun and Chen, Lichang and Huang, Furong and Yacoob, Yaser and Manocha, Dinesh and Zhou, Tianyi } ,
title = { HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 } ,
pages = { 14375-14385 }
}
@misc { liu2023mitigating ,
title = { Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning } ,
author = { Fuxiao Liu and Kevin Lin and Linjie Li and Jianfeng Wang and Yaser Yacoob and Lijuan Wang } ,
year = { 2023 } ,
eprint = { 2306.14565 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV }
}
@misc { liu2023mmc ,
title = { MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning } ,
author = { Fuxiao Liu and Xiaoyang Wang and Wenlin Yao and Jianshu Chen and Kaiqiang Song and Sangwoo Cho and Yaser Yacoob and Dong Yu } ,
year = { 2023 } ,
eprint = { 2311.10774 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}
Чтобы упростить оценку, мы задаем вопросы только в форме вопросов «да/нет».
Обновлено | Вопросы и аннотации | Цифры | Количество вопросов | Количество фигур |
---|---|---|---|---|
27 октября 2023 г. | HallusionBench.json | Hallusion_bench.zip | 254 | 69 |
git clone https://github.com/tianyi-lab/HallusionBench.git
cd ./HallusionBench
Загрузите изображения Hallusion_bench.zip и разархивируйте папку в том же каталоге.
Вопросы и расположение изображений сохраняются в ./HallusionBench.json
. Пример данных следующий:
{'category': 'VD', 'subcategory': 'illusion', 'visual_input': '1', 'set_id': '0', 'figure_id': '0', 'sample_note': 'circle', 'question_id': '0', 'question': 'Is the right orange circle the same size as the left orange circle?', 'gt_answer_details': 'The right orange circle is the same size as the left orange circle.', 'gt_answer': '1', 'filename': './hallusion_bench/VD/illusion/0_0.png'}
Ключ visual_input
означает, требуется ли для вопроса визуальный ввод, например изображения. Если visual_input=1
, это означает, что вопрос требует визуального ввода. Если visual_input=0
, это означает, что вопрос не требует визуального ввода. Это текстовый вопрос.
./HallusionBench.json
и сохраните выходной файл как ./HallusionBench_result.json
. Вам нужно добавить выходные данные вашей модели в ключ 'model_prediction'
. Мы предоставляем образец результата здесь. python evaluation.py
Вы можете использовать свой собственный ключ API для оценки GPT4, отредактировав код здесь.
Модель | Пара вопросов в соотв. | Рисунок Acc | Легкий вопрос | Сложный вопрос | Вопрос в соотв. | Json |
---|---|---|---|---|---|---|
GPT4V Версия от 25 сентября 2023 г. (Человеческая оценка) | 31.42 | 44,22 | 79,56 | 38,37 | 67,58 | ВД, ВС |
GPT4V Версия от 25 сентября 2023 г. (оценка GPT) | 28,79 | 39,88 | 75,60 | 37,67 | 65,28 | ВД, ВС |
Клод 3 (оценка GPT) | 21.76 | 28.61 | 55,16 | 41.40 | 56,86 | ВД, ВС |
ЛЛаВА-1,5 (Человеческая оценка) | 9.45 | 25.43 | 50,77 | 29.07 | 47.12 | ВД, ВС |
ЛЛаВА-1,5 (оценка GPT) | 10.55 | 24.86 | 49,67 | 29,77 | 46,94 | ВД, ВС |
Близнецы Про Видение Версия от декабря 2023 г. (оценка GPT) | 7,69 | 8,67 | 35,60 | 30.23 | 36,85 | ВД, ВС |
ГУА_ВЛ (оценка GPT) | 16.70 | 23.12 | 53,63 | 39,77 | 51,82 | ВД, ВС |
БЛИП2-Т5 (оценка GPT) | 15.16 | 20.52 | 45,49 | 43,49 | 48.09 | ВД, ВС |
Квен-ВЛ (оценка GPT) | 5,93 | 6,65 | 31.43 | 24.88 | 39.15 | ВД, ВС |
Открытый-Фламинго (оценка GPT) | 6.37 | 11.27 | 39,56 | 27.21 | 38,44 | ВД, ВС |
МиниGPT5 (оценка GPT) | 10.55 | 9,83 | 36.04 | 28.37 | 40.30 | ВД, ВС |
МиниGPT4 (оценка GPT) | 8,79 | 10.12 | 31,87 | 27,67 | 35,78 | ВД, ВС |
ИнструктироватьBLIP (оценка GPT) | 9.45 | 10.11 | 35,60 | 45.12 | 45,26 | ВД, ВС |
БЛИП2 (оценка GPT) | 5.05 | 12.43 | 33,85 | 40,70 | 40,48 | ВД, ВС |
mPLUG_Owl-v2 (оценка GPT) | 13.85 | 19.94 | 44,84 | 39.07 | 47.30 | ВД, ВС |
mPLUG_Owl-v1 (оценка GPT) | 9.45 | 10.40 | 39.34 | 29,77 | 43,93 | ВД, ВС |
LRV_Инструкция (оценка GPT) | 8,79 | 13.01 | 39,78 | 27.44 | 42,78 | ВД, ВС |
ВИЛТ (оценка GPT) | 8.3516 | 11.2717 | 37.8022 | 45.3488 | 44.4641 | ВД, ВС |
ГИТ (оценка GPT) | 5.27 | 6.36 | 26.81 | 31,86 | 34,37 | ВД, ВС |
Мы сохранили вывод GPT4V с нашей аннотацией. Поместите HallusionBench.tsv
в корневой каталог этого репозитория или задайте input_file_name
в gpt4v_benchmark.py в качестве местоположения файла HallusionBench.tsv.
(Необязательно) Если у вас нет доступа к GPT API, вам не нужно его запускать, поскольку мы сохранили результаты оценки. Их можно скачать для Visual Dependent и Visual Supplement. Поместите файлы json в корневой каталог этого репозитория или установите save_json_path_vd
и save_json_path_vd
в gpt4v_benchmark.py в соответствующие места.
Запустите python gpt4v_benchmark.py
.
Этот репозиторий находится под лицензией BSD с 3 пунктами.