ترى ما رأيك؟ أو هل تفكر في ما تراه؟ معيار استدلال سياق الصورة يمثل تحديًا لنماذج GPT-4V(ision) وLLaVA-1.5 ونماذج أخرى متعددة الوسائط
تيانروي جوان*، فوكسياو ليو*، شيانغ وو، رويتشي شيان، زونغشيا لي، شياويو ليو، شيجون وانغ، ليتشانغ تشين، فورونغ هوانغ، ياسر يعقوب، دينيش مانوتشا، تياني تشو
يمكن لنماذج اللغة الكبيرة (LLMs)، بعد مواءمتها مع نماذج الرؤية ودمجها في نماذج لغة الرؤية (VLMs)، أن تحقق تحسينًا مثيرًا للإعجاب في مهام التفكير المنطقي للصور. وقد تم إظهار ذلك من خلال GPT-4V(ison)، وLLaVA-1.5، وما إلى ذلك الذي تم إصداره مؤخرًا. ومع ذلك، فإن اللغة القوية السابقة في SOTA LVLMs يمكن أن تكون سيفًا ذا حدين: فقد تتجاهل سياق الصورة وتعتمد فقط على ( ولو كانت متناقضة) لغة سابقة للاستدلال. في المقابل، فإن وحدات الرؤية في VLMs أضعف من LLMs وقد تؤدي إلى تمثيلات بصرية مضللة، والتي يتم ترجمتها بعد ذلك إلى أخطاء واثقة من قبل LLMs. لدراسة هذين النوعين من أخطاء VLM، أي الهلوسة اللغوية والوهم البصري، قمنا برعاية HallusionBench، وهو معيار استدلال لسياق الصورة والذي لا يزال يمثل تحديًا حتى لـ GPT-4V وLLaVA-1.5. نحن نقدم تحليلاً مفصلاً للأمثلة في HallusionBench، والذي يلقي رؤى جديدة حول وهم أو هلوسة VLMs وكيفية تحسينها في المستقبل.
إذا وجدت ورقتنا مفيدة، يرجى الاستشهاد بورقتنا:
@misc { wu2024autohallusion ,
title = { AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models } ,
author = { Xiyang Wu and Tianrui Guan and Dianqi Li and Shuaiyi Huang and Xiaoyu Liu and Xijun Wang and Ruiqi Xian and Abhinav Shrivastava and Furong Huang and Jordan Lee Boyd-Graber and Tianyi Zhou and Dinesh Manocha } ,
year = { 2024 } ,
eprint = { 2406.10900 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV } ,
url = { https://arxiv.org/abs/2406.10900 } ,
}
@InProceedings { Guan_2024_CVPR ,
author = { Guan, Tianrui and Liu, Fuxiao and Wu, Xiyang and Xian, Ruiqi and Li, Zongxia and Liu, Xiaoyu and Wang, Xijun and Chen, Lichang and Huang, Furong and Yacoob, Yaser and Manocha, Dinesh and Zhou, Tianyi } ,
title = { HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2024 } ,
pages = { 14375-14385 }
}
@misc { liu2023mitigating ,
title = { Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning } ,
author = { Fuxiao Liu and Kevin Lin and Linjie Li and Jianfeng Wang and Yaser Yacoob and Lijuan Wang } ,
year = { 2023 } ,
eprint = { 2306.14565 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV }
}
@misc { liu2023mmc ,
title = { MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning } ,
author = { Fuxiao Liu and Xiaoyang Wang and Wenlin Yao and Jianshu Chen and Kaiqiang Song and Sangwoo Cho and Yaser Yacoob and Dong Yu } ,
year = { 2023 } ,
eprint = { 2311.10774 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}
ولتبسيط التقييم، نقدم السؤال فقط في شكل أسئلة نعم/لا.
تم التحديث بتاريخ | الأسئلة والشروحات | أرقام | عدد الأسئلة | عدد الشكل |
---|---|---|---|---|
27 أكتوبر 2023 | HallusionBench.json | hallusion_bench.zip | 254 | 69 |
git clone https://github.com/tianyi-lab/HallusionBench.git
cd ./HallusionBench
قم بتنزيل الصور hallusion_bench.zip وقم بفك ضغط المجلد الموجود في نفس الدليل.
يتم حفظ الأسئلة ومواقع الصور في ./HallusionBench.json
. عينة البيانات هي كما يلي:
{'category': 'VD', 'subcategory': 'illusion', 'visual_input': '1', 'set_id': '0', 'figure_id': '0', 'sample_note': 'circle', 'question_id': '0', 'question': 'Is the right orange circle the same size as the left orange circle?', 'gt_answer_details': 'The right orange circle is the same size as the left orange circle.', 'gt_answer': '1', 'filename': './hallusion_bench/VD/illusion/0_0.png'}
يعني المفتاح visual_input
ما إذا كان السؤال يحتاج إلى إدخال مرئي مثل الصور. إذا كان visual_input=1
فهذا يعني أن السؤال يحتاج إلى إدخال مرئي. إذا كان visual_input=0
، فهذا يعني أن السؤال لا يحتاج إلى إدخال مرئي. إنه السؤال النصي فقط.
./HallusionBench.json
واحفظ ملف الإخراج باسم ./HallusionBench_result.json
. تحتاج إلى إضافة مخرجات النموذج الخاص بك في المفتاح 'model_prediction'
. نحن نقدم نتيجة عينة هنا. python evaluation.py
يمكنك استخدام مفتاح API الخاص بك لتقييم GPT4 عن طريق تحرير الكود هنا.
نموذج | زوج السؤال Acc | الشكل لجنة التنسيق الإدارية | سؤال سهل Acc | سؤال صعب Acc | سؤال الملحق | جسون |
---|---|---|---|---|---|---|
جي بي تي 4 في إصدار 25 سبتمبر 2023 (التقييم البشري) | 31.42 | 44.22 | 79.56 | 38.37 | 67.58 | في دي، مقابل |
جي بي تي 4 في إصدار 25 سبتمبر 2023 (تقييم GPT) | 28.79 | 39.88 | 75.60 | 37.67 | 65.28 | في دي، مقابل |
كلود 3 (تقييم GPT) | 21.76 | 28.61 | 55.16 | 41.40 | 56.86 | في دي، مقابل |
لافا-1.5 (التقييم البشري) | 9.45 | 25.43 | 50.77 | 29.07 | 47.12 | في دي، مقابل |
لافا-1.5 (تقييم GPT) | 10.55 | 24.86 | 49.67 | 29.77 | 46.94 | في دي، مقابل |
الجوزاء برو فيجن إصدار ديسمبر 2023 (تقييم GPT) | 7.69 | 8.67 | 35.60 | 30.23 | 36.85 | في دي، مقابل |
GUA_VL (تقييم GPT) | 16.70 | 23.12 | 53.63 | 39.77 | 51.82 | في دي، مقابل |
بليب2-T5 (تقييم GPT) | 15.16 | 20.52 | 45.49 | 43.49 | 48.09 | في دي، مقابل |
كوين-VL (تقييم GPT) | 5.93 | 6.65 | 31.43 | 24.88 | 39.15 | في دي، مقابل |
فتح فلامنغو (تقييم GPT) | 6.37 | 11.27 | 39.56 | 27.21 | 38.44 | في دي، مقابل |
مينيGPT5 (تقييم GPT) | 10.55 | 9.83 | 36.04 | 28.37 | 40.30 | في دي، مقابل |
ميني جي بي تي 4 (تقييم GPT) | 8.79 | 10.12 | 31.87 | 27.67 | 35.78 | في دي، مقابل |
InstructBLIP (تقييم GPT) | 9.45 | 10.11 | 35.60 | 45.12 | 45.26 | في دي، مقابل |
بليب2 (تقييم GPT) | 5.05 | 12.43 | 33.85 | 40.70 | 40.48 | في دي، مقابل |
mPLUG_Owl-v2 (تقييم GPT) | 13.85 | 19.94 | 44.84 | 39.07 | 47.30 | في دي، مقابل |
mPLUG_Owl-v1 (تقييم GPT) | 9.45 | 10.40 | 39.34 | 29.77 | 43.93 | في دي، مقابل |
LRV_Instruction (تقييم GPT) | 8.79 | 13.01 | 39.78 | 27.44 | 42.78 | في دي، مقابل |
ViLT (تقييم GPT) | 8.3516 | 11.2717 | 37.8022 | 45.3488 | 44.4641 | في دي، مقابل |
جي تي (تقييم GPT) | 5.27 | 6.36 | 26.81 | 31.86 | 34.37 | في دي، مقابل |
لقد حفظنا مخرجات GPT4V من خلال تعليقنا التوضيحي. ضع HallusionBench.tsv
في الدليل الجذر لهذا الريبو، أو قم بتعيين input_file_name
في gpt4v_benchmark.py إلى موقع ملف HallusionBench.tsv.
(اختياري) إذا لم يكن لديك حق الوصول إلى GPT API، فلن تحتاج إلى تشغيلها نظرًا لأننا حفظنا نتائج التقييم. يمكن تنزيلها من أجل Visual Dependent وVisual Supplement. ضع ملفات json في الدليل الجذر لهذا الريبو، أو قم بتعيين save_json_path_vd
و save_json_path_vd
في gpt4v_benchmark.py إلى مواقعهما الخاصة.
قم بتشغيل python gpt4v_benchmark.py
.
هذا المستودع يخضع لترخيص BSD 3-Clause.