多模态法学硕士在低级计算机视觉方面表现如何?
吴浩宁1 * 、张子成2 * 、张二丽1 * 、陈超峰1 、廖亮1 、
王安南1 、李春怡2 、孙文秀3 、严琼3 、翟广涛2 、林伟思1 #
1南洋理工大学、 2上海交通大学、 3商汤科技
*同等贡献。 #通讯作者。
ICLR2024 聚焦
纸|项目页面| GitHub |数据(LLVisionQA) |数据 (LLDescribe) |质衡 (Chinese-Q-Bench)
拟议的 Q-Bench 包括低级视觉的三个领域:感知 (A1)、描述 (A2) 和评估 (A3)。
对于感知(A1)/描述(A2),我们收集了两个基准数据集 LLVisionQA/LLDescribe。
我们愿意对这两项任务进行基于提交的评估。提交详情如下。
对于评估 (A3),由于我们使用公共数据集,我们为任意 MLLM 提供了抽象评估代码,供任何人测试。
datasets
API 一起使用对于Q-Bench-A1(带有多项选择题),我们已将它们转换为HF格式的数据集,可以自动下载并与datasets
API一起使用。请参考以下说明:
pip 安装数据集
from datasets import load_datasetds = load_dataset("q-future/Q-Bench-HF")print(ds["dev"][0])### {'id': 0,### 'image': <PIL .JpegImagePlugin.JpegImageFile 图像模式=RGB尺寸=4160x3120>,### '问题': '这座建筑的照明怎么样?',### '选项0':'高',### '选项1':'低',### '选项2':'中',### '选项3':'不适用',### 'question_type': 2,### 'question_concern': 3,### ' Correct_choice': 'B'}
from datasets import load_datasetds = load_dataset("q-future/Q-Bench2-HF")print(ds["dev"][0])### {'id': 0,### 'image1': <PIL .Image.Image 图像模式=RGB 大小=4032x3024>,### 'image2': <PIL.JpegImagePlugin.JpegImageFile 图像模式=RGB size=864x1152>,### 'question': '与第一张图片相比,第二张图片的清晰度如何?',### 'option0': '更模糊',### 'option1': '更清晰',### 'option2': '差不多',### 'option3': 'N/A',### 'question_type': 2,### 'question_concern': 0,### ' Correct_choice': 'B'}
[2024/8/8] Q-bench+(也称为Q-Bench2)的低级视觉比较任务部分刚刚被TPAMI接受!快来用 Q-bench+_Dataset 测试你的 MLLM。
[2024/8/1] Q-Bench已在 VLMEvalKit 上发布,快来用“python run.py --data Q-Bench1_VAL Q-Bench1_TEST --model InternVL2-1B --verbose”这样的命令测试您的 LMM。
[2024/6/17] Q-Bench 、 Q-Bench2 (Q-bench+)和A-Bench现已加入lmms-eval,这使得测试LMM变得更加容易!
[2024/6/3] A-Bench的 Github 仓库上线。您想知道您的 LMM 是否是评估 AI 生成图像的高手吗?快来A-Bench上测试一下吧!
[3/1] 我们在此发布Co-instruct ,走向开放式视觉质量比较。更多详细信息即将推出。
[2/27] 我们的工作Q-Insturct已被CVPR 2024接收,尝试了解如何指导MLLM进行低级视觉的详细信息!
[2/23] Q-bench+的低级视觉比较任务部分现已在Q-bench+(数据集)发布!
[2/10] 我们正在发布扩展的 Q-bench+,它在低级视觉上用单图像和图像对挑战 MLLM。排行榜现场,快来看看你最喜欢的MLLM的低级视力能力吧!更多详细信息即将推出。
[1/16] 我们的工作“Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision”被ICLR2024 接受为 Spotlight Present 。
我们测试了三个闭源API模型,GPT-4V-Turbo( gpt-4-vision-preview
,替换不再可用的旧版本GPT-4V 结果)、Gemini Pro( gemini-pro-vision
)和 Qwen -VL-Plus ( qwen-vl-plus
)。与旧版本相比略有改进,GPT-4V 仍然在所有 MLLM 中名列前茅,几乎达到了初级人类的表现。 Gemini Pro 和 Qwen-VL-Plus 紧随其后,仍然优于最好的开源 MLLM(总体为 0.65)。
[2024/7/18]更新,我们很高兴发布BlueImage-GPT (闭源)的新SOTA性能。
感知,A1-单人
参加者姓名 | 是还是不是 | 什么 | 如何 | 失真 | 其他的 | 语境扭曲 | 上下文中的其他人 | 全面的 |
---|---|---|---|---|---|---|---|---|
Qwen-VL-Plus ( qwen-vl-plus ) | 0.7574 | 0.7325 | 0.5733 | 0.6488 | 0.7324 | 0.6867 | 0.7056 | 0.6893 |
BlueImage-GPT( from VIVO 新冠军) | 0.8467 | 0.8351 | 0.7469 | 0.7819 | 0.8594 | 0.7995 | 0.8240 | 0.8107 |
Gemini-Pro ( gemini-pro-vision ) | 0.7221 | 0.7300 | 0.6645 | 0.6530 | 0.7291 | 0.7082 | 0.7665 | 0.7058 |
GPT-4V-Turbo ( gpt-4-vision-preview ) | 0.7722 | 0.7839 | 0.6645 | 0.7101 | 0.7107 | 0.7936 | 0.7891 | 0.7410 |
GPT-4V(旧版) | 0.7792 | 0.7918 | 0.6268 | 0.7058 | 0.7303 | 0.7466 | 0.7795 | 0.7336 |
人类-1-初级 | 0.8248 | 0.7939 | 0.6029 | 0.7562 | 0.7208 | 0.7637 | 0.7300 | 0.7431 |
人类-2-高级 | 0.8431 | 0.8894 | 0.7202 | 0.7965 | 0.7947 | 0.8390 | 0.8707 | 0.8174 |
感知,A1 对
参加者姓名 | 是还是不是 | 什么 | 如何 | 失真 | 其他的 | 比较 | 联合的 | 全面的 |
---|---|---|---|---|---|---|---|---|
Qwen-VL-Plus ( qwen-vl-plus ) | 0.6685 | 0.5579 | 0.5991 | 0.6246 | 0.5877 | 0.6217 | 0.5920 | 0.6148 |
Qwen-VL-Max ( qwen-vl-max ) | 0.6765 | 0.6756 | 0.6535 | 0.6909 | 0.6118 | 0.6865 | 0.6129 | 0.6699 |
BlueImage-GPT( from VIVO 新冠军) | 0.8843 | 0.8033 | 0.7958 | 0.8464 | 0.8062 | 0.8462 | 0.7955 | 0.8348 |
Gemini-Pro ( gemini-pro-vision ) | 0.6578 | 0.5661 | 0.5674 | 0.6042 | 0.6055 | 0.6046 | 0.6044 | 0.6046 |
GPT-4V( gpt-4-vision ) | 0.7975 | 0.6949 | 0.8442 | 0.7732 | 0.7993 | 0.8100 | 0.6800 | 0.7807 |
初级人类 | 0.7811 | 0.7704 | 0.8233 | 0.7817 | 0.7722 | 0.8026 | 0.7639 | 0.8012 |
高级人力 | 0.8300 | 0.8481 | 0.8985 | 0.8313 | 0.9078 | 0.8655 | 0.8225 | 0.8548 |
我们最近还评估了几个新的开源模型,并将很快发布他们的结果。
我们现在提供两种下载数据集的方式(LLVisionQA&LLDescribe)
通过 GitHub 发布:请参阅我们的发布了解详细信息。
通过 Huggingface 数据集:请参阅数据发布说明下载图像。
强烈建议将您的模型转换为 Huggingface 格式,以便顺利测试这些数据。请参阅 Huggingface 的 IDEFICS-9B-Instruct 的示例脚本作为示例,并针对您的自定义模型修改它们以在您的模型上进行测试。
请发送电子邮件至[email protected]
以 json 格式提交您的结果。
您还可以将您的模型(可以是 Huggingface AutoModel 或 ModelScope AutoModel)连同您的自定义评估脚本一起提交给我们。您可以从适用于 LLaVA-v1.5(适用于 A1/A2)和此处(适用于图像质量评估)的模板脚本修改您的自定义脚本。
如果您不在中国大陆,请发送电子邮件至[email protected]
提交您的模型。如果您在中国大陆,请发送电子邮件至[email protected]
提交您的模型。
MLLM 低级感知能力的 LLVisionQA 基准数据集快照如下。请参阅此处的排行榜。
我们在这里衡量 MLLM(提供问题和所有选择)的答案准确性作为指标。
MLLM 低级描述能力的 LLDescribe 基准数据集快照如下。请参阅此处的排行榜。
我们衡量 MLLM 描述的完整性、精确性和相关性作为此处的指标。
MLLM 能够预测 IQA 的定量分数,这是一项令人兴奋的能力!
与上面类似,只要一个模型(基于因果语言模型)具有以下两个方法: embed_image_and_text
(允许多模态输入)和forward
(用于计算logits),就可以用该模型进行图像质量评估(IQA)可以通过如下方式实现:
from PIL import Imagefrom my_mllm_model import Model, Tokenizer, embed_image_and_textmodel, tokenizer = Model(), Tokenizer()prompt = "##User: 评价图像的质量.n" "##Assistant: 图像质量为" ### 这行可以根据 MLLM 的默认行为进行修改。good_idx, bad_idx = tokenizer(["good","poor"]).tolist()image = Image.打开(“image_for_iqa.jpg”)input_embeds = embed_image_and_text(图像,提示)output_logits =模型(input_embeds=input_embeds).logits[0,-1]q_pred = (output_logits[[good_idx, bad_idx]] / 100).softmax(0)[0]
*请注意,您可以根据模型的默认格式修改第二行,例如对于Shikra,“##Assistant:图像的质量是”修改为“##Assistant:答案是”。如果您的 MLLM 首先回答“好的,我想帮忙!图像质量是”,没关系,只需将其替换为提示的第 2 行即可。
我们进一步在 IQA 上提供 IDEFICS 的全面实施。请参阅有关如何使用此 MLLM 运行 IQA 的示例。其他 MLLM 也可以以相同的方式修改以用于 IQA。
我们为我们的基准测试中评估的七个 IQA 数据库准备了 JSON 格式的人类意见评分 (MOS)。
详细信息请参阅IQA_databases。
移至排行榜。请点击查看详情。
如有疑问,请联系本文的第一作者。
吴浩宁, [email protected]
,@teowu
张子成, [email protected]
, @zzc-1998
张二丽, [email protected]
,@ZhangErliCarl
如果您发现我们的工作有趣,请随时引用我们的论文:
@inproceedings{wu2024qbench,author = {吴、浩宁和张、子成和张、二里和陈、朝风和廖、梁和王、安南和李、春一和孙、文秀和严、琼和翟、广涛和林, Weisi},title = {Q-Bench: 低水平视觉通用基础模型的基准},booktitle = {ICLR},year = {2024}}