Q Bench下载 - Q Bench源代码下载

Q Bench

其他源码

1.0.0

下载

Q-Bench：低级视觉通用基础模型的基准

多模态法学硕士在低级计算机视觉方面表现如何？

吴浩宁¹ ^* 、张子成² ^* 、张二丽¹ ^* 、陈超峰¹ 、廖亮¹ 、

王安南¹ 、李春怡² 、孙文秀³ 、严琼³ 、翟广涛² 、林伟思¹ ^#

¹南洋理工大学、 ²上海交通大学、 ³商汤科技

^*同等贡献。 ^#通讯作者。

ICLR2024 聚焦

拟议的 Q-Bench 包括低级视觉的三个领域：感知 (A1)、描述 (A2) 和评估 (A3)。

对于感知（A1）/描述（A2），我们收集了两个基准数据集 LLVisionQA/LLDescribe。
我们愿意对这两项任务进行基于提交的评估。提交详情如下。
对于评估 (A3)，由于我们使用公共数据集，我们为任意 MLLM 提供了抽象评估代码，供任何人测试。

与`datasets` API 一起使用

对于Q-Bench-A1（带有多项选择题），我们已将它们转换为HF格式的数据集，可以自动下载并与datasets API一起使用。请参考以下说明：

 pip 安装数据集

Q-Bench（单张图像）

 from datasets import load_datasetds = load_dataset("q-future/Q-Bench-HF")print(ds["dev"][0])### {'id': 0,### 'image': <PIL .JpegImagePlugin.JpegImageFile 图像模式=RGB尺寸=4160x3120>,### '问题': '这座建筑的照明怎么样？',### '选项0'：'高'，### '选项1'：'低'，### '选项2'：'中'，### '选项3'：'不适用'，### 'question_type'： 2,### 'question_concern': 3,### ' Correct_choice': 'B'}

Q-Bench2（图像对）

 from datasets import load_datasetds = load_dataset("q-future/Q-Bench2-HF")print(ds["dev"][0])### {'id': 0,### 'image1': <PIL .Image.Image 图像模式=RGB 大小=4032x3024>,### 'image2': <PIL.JpegImagePlugin.JpegImageFile 图像模式=RGB size=864x1152>,### 'question': '与第一张图片相比，第二张图片的清晰度如何？',### 'option0': '更模糊',### 'option1': '更清晰',### 'option2': '差不多',### 'option3': 'N/A',### 'question_type': 2,### 'question_concern': 0,### ' Correct_choice': 'B'}

发布

[2024/8/8] Q-bench+（也称为Q-Bench2）的低级视觉比较任务部分刚刚被TPAMI接受！快来用 Q-bench+_Dataset 测试你的 MLLM。
[2024/8/1] Q-Bench已在 VLMEvalKit 上发布，快来用“python run.py --data Q-Bench1_VAL Q-Bench1_TEST --model InternVL2-1B --verbose”这样的命令测试您的 LMM。
[2024/6/17] Q-Bench 、 Q-Bench2 （Q-bench+）和A-Bench现已加入lmms-eval，这使得测试LMM变得更加容易！
[2024/6/3] A-Bench的 Github 仓库上线。您想知道您的 LMM 是否是评估 AI 生成图像的高手吗？快来A-Bench上测试一下吧！
[3/1] 我们在此发布Co-instruct ，走向开放式视觉质量比较。更多详细信息即将推出。
[2/27] 我们的工作Q-Insturct已被CVPR 2024接收，尝试了解如何指导MLLM进行低级视觉的详细信息！
[2/23] Q-bench+的低级视觉比较任务部分现已在Q-bench+（数据集）发布！
[2/10] 我们正在发布扩展的 Q-bench+，它在低级视觉上用单图像和图像对挑战 MLLM。排行榜现场，快来看看你最喜欢的MLLM的低级视力能力吧！更多详细信息即将推出。
[1/16] 我们的工作“Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision”被ICLR2024 接受为 Spotlight Present 。

闭源 MLLM（GPT-4V-Turbo、Gemini、Qwen-VL-Plus、GPT-4V）

我们测试了三个闭源API模型，GPT-4V-Turbo（ gpt-4-vision-preview ，替换不再可用的旧版本GPT-4V 结果）、Gemini Pro（ gemini-pro-vision ）和 Qwen -VL-Plus ( qwen-vl-plus )。与旧版本相比略有改进，GPT-4V 仍然在所有 MLLM 中名列前茅，几乎达到了初级人类的表现。 Gemini Pro 和 Qwen-VL-Plus 紧随其后，仍然优于最好的开源 MLLM（总体为 0.65）。

[2024/7/18]更新，我们很高兴发布BlueImage-GPT （闭源）的新SOTA性能。

感知，A1-单人

参加者姓名	是还是不是	什么	如何	失真	其他的	语境扭曲	上下文中的其他人	全面的
Qwen-VL-Plus ( `qwen-vl-plus` )	0.7574	0.7325	0.5733	0.6488	0.7324	0.6867	0.7056	0.6893
BlueImage-GPT（ `from VIVO`新冠军）	0.8467	0.8351	0.7469	0.7819	0.8594	0.7995	0.8240	0.8107
Gemini-Pro ( `gemini-pro-vision` )	0.7221	0.7300	0.6645	0.6530	0.7291	0.7082	0.7665	0.7058
GPT-4V-Turbo ( `gpt-4-vision-preview` )	0.7722	0.7839	0.6645	0.7101	0.7107	0.7936	0.7891	0.7410
GPT-4V（旧版）	0.7792	0.7918	0.6268	0.7058	0.7303	0.7466	0.7795	0.7336
人类-1-初级	0.8248	0.7939	0.6029	0.7562	0.7208	0.7637	0.7300	0.7431
人类-2-高级	0.8431	0.8894	0.7202	0.7965	0.7947	0.8390	0.8707	0.8174

感知，A1 对

参加者姓名	是还是不是	什么	如何	失真	其他的	比较	联合的	全面的
Qwen-VL-Plus ( `qwen-vl-plus` )	0.6685	0.5579	0.5991	0.6246	0.5877	0.6217	0.5920	0.6148
Qwen-VL-Max ( `qwen-vl-max` )	0.6765	0.6756	0.6535	0.6909	0.6118	0.6865	0.6129	0.6699
BlueImage-GPT（ `from VIVO`新冠军）	0.8843	0.8033	0.7958	0.8464	0.8062	0.8462	0.7955	0.8348
Gemini-Pro ( `gemini-pro-vision` )	0.6578	0.5661	0.5674	0.6042	0.6055	0.6046	0.6044	0.6046
GPT-4V（ `gpt-4-vision` ）	0.7975	0.6949	0.8442	0.7732	0.7993	0.8100	0.6800	0.7807
初级人类	0.7811	0.7704	0.8233	0.7817	0.7722	0.8026	0.7639	0.8012
高级人力	0.8300	0.8481	0.8985	0.8313	0.9078	0.8655	0.8225	0.8548

我们最近还评估了几个新的开源模型，并将很快发布他们的结果。

A1/A2 提交指南

选项 1：提交结果

第 1 步：下载图像

我们现在提供两种下载数据集的方式（LLVisionQA&LLDescribe）

通过 GitHub 发布：请参阅我们的发布了解详细信息。
通过 Huggingface 数据集：请参阅数据发布说明下载图像。

第 2 步：使用您的模型进行测试

强烈建议将您的模型转换为 Huggingface 格式，以便顺利测试这些数据。请参阅 Huggingface 的 IDEFICS-9B-Instruct 的示例脚本作为示例，并针对您的自定义模型修改它们以在您的模型上进行测试。

请发送电子邮件至[email protected]以 json 格式提交您的结果。

选项 2：提交模型

您还可以将您的模型（可以是 Huggingface AutoModel 或 ModelScope AutoModel）连同您的自定义评估脚本一起提交给我们。您可以从适用于 LLaVA-v1.5（适用于 A1/A2）和此处（适用于图像质量评估）的模板脚本修改您的自定义脚本。

如果您不在中国大陆，请发送电子邮件至[email protected]提交您的模型。如果您在中国大陆，请发送电子邮件至[email protected]提交您的模型。

A1：感知

MLLM 低级感知能力的 LLVisionQA 基准数据集快照如下。请参阅此处的排行榜。

我们在这里衡量 MLLM（提供问题和所有选择）的答案准确性作为指标。

A2：说明

MLLM 低级描述能力的 LLDescribe 基准数据集快照如下。请参阅此处的排行榜。

我们衡量 MLLM 描述的完整性、精确性和相关性作为此处的指标。

A3：评估

MLLM 能够预测 IQA 的定量分数，这是一项令人兴奋的能力！

方法论

预测分数

伪代码

与上面类似，只要一个模型（基于因果语言模型）具有以下两个方法： embed_image_and_text （允许多模态输入）和forward （用于计算logits），就可以用该模型进行图像质量评估（IQA）可以通过如下方式实现：

 from PIL import Imagefrom my_mllm_model import Model, Tokenizer, embed_image_and_textmodel, tokenizer = Model(), Tokenizer()prompt = "##User: 评价图像的质量.n"
          "##Assistant: 图像质量为" ### 这行可以根据 MLLM 的默认行为进行修改。good_idx, bad_idx = tokenizer(["good","poor"]).tolist()image = Image.打开（“image_for_iqa.jpg”）input_embeds = embed_image_and_text（图像，提示）output_logits =模型(input_embeds=input_embeds).logits[0,-1]q_pred = (output_logits[[good_idx, bad_idx]] / 100).softmax(0)[0]

*请注意，您可以根据模型的默认格式修改第二行，例如对于Shikra，“##Assistant：图像的质量是”修改为“##Assistant：答案是”。如果您的 MLLM 首先回答“好的，我想帮忙！图像质量是”，没关系，只需将其替换为提示的第 2 行即可。

IDEFICS 的实际代码示例

我们进一步在 IQA 上提供 IDEFICS 的全面实施。请参阅有关如何使用此 MLLM 运行 IQA 的示例。其他 MLLM 也可以以相同的方式修改以用于 IQA。

使用 IQA 数据库计算 SRCC/PLCC

我们为我们的基准测试中评估的七个 IQA 数据库准备了 JSON 格式的人类意见评分 (MOS)。

详细信息请参阅IQA_databases。

IQA 数据库的官方结果

移至排行榜。请点击查看详情。

接触

如有疑问，请联系本文的第一作者。

吴浩宁， [email protected] ，@teowu
张子成, [email protected] , @zzc-1998
张二丽， [email protected] ，@ZhangErliCarl

引文

如果您发现我们的工作有趣，请随时引用我们的论文：

 @inproceedings{wu2024qbench,author = {吴、浩宁和张、子成和张、二里和陈、朝风和廖、梁和王、安南和李、春一和孙、文秀和严、琼和翟、广涛和林， Weisi},title = {Q-Bench: 低水平视觉通用基础模型的基准},booktitle = {ICLR},year = {2024}}

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2024-12-02
大小 32.03MB
来自于 Github

Q Bench

Q-Bench：低级视觉通用基础模型的基准

与`datasets` API 一起使用

Q-Bench（单张图像）

Q-Bench2（图像对）

发布

闭源 MLLM（GPT-4V-Turbo、Gemini、Qwen-VL-Plus、GPT-4V）

A1/A2 提交指南

选项 1：提交结果

第 1 步：下载图像

第 2 步：使用您的模型进行测试

选项 2：提交模型

A1：感知

A2：说明

A3：评估

方法论

预测分数

伪代码

IDEFICS 的实际代码示例

使用 IQA 数据库计算 SRCC/PLCC

IQA 数据库的官方结果

接触

引文

Q房网

QCFUN应用程序

芭比Q app

心挂Q

52挂Q

Q-目录

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

Q Bench

Q-Bench：低级视觉通用基础模型的基准

与datasets API 一起使用

Q-Bench（单张图像）

Q-Bench2（图像对）

发布

闭源 MLLM（GPT-4V-Turbo、Gemini、Qwen-VL-Plus、GPT-4V）

A1/A2 提交指南

选项 1：提交结果

第 1 步：下载图像

第 2 步：使用您的模型进行测试

选项 2：提交模型

A1：感知

A2：说明

A3：评估

方法论

预测分数

伪代码

IDEFICS 的实际代码示例

使用 IQA 数据库计算 SRCC/PLCC

IQA 数据库的官方结果

接触

引文

与`datasets` API 一起使用