Q Bench下載 - Q Bench原始碼下載

Q Bench

其他源碼

1.0.0

下載

Q-Bench：低階視覺通用基礎模型的基準

多模態法學碩士在低階電腦視覺方面表現如何？

吳浩寧¹ ^* 、張子成² ^* 、張二麗¹ ^* 、陳超峰¹ 、廖亮¹ 、

王安南¹ 、李春怡² 、孫文秀³ 、嚴瓊³ 、翟廣濤² 、林偉思¹ ^#

¹南洋理工大學、 ²上海交通大學、 ³商湯研究院

^*同等貢獻。 ^#通訊作者。

ICLR2024 聚焦

建議的 Q-Bench 包括低階視覺的三個領域：感知 (A1)、描述 (A2) 和評估 (A3)。

對於感知（A1）/描述（A2），我們收集了兩個基準資料集 LLVisionQA/LLDescribe。
我們願意對這兩項任務進行基於提交的評估。提交詳情如下。
對於評估 (A3)，當我們使用公共資料集時，我們為任意 MLLM 提供了一個抽象評估程式碼，供任何人測試。

與`datasets` API 一起使用

對於Q-Bench-A1（帶有多項選擇題），我們已將它們轉換為HF格式的資料集，可以自動下載並與datasets API一起使用。請參考以下說明：

 pip 安裝資料集

Q-Bench（單張圖片）

 from datasets import load_datasetds = load_dataset("q-future/Q-Bench-HF")print(ds["dev"][0])### {'id': 0,### 'image': <PIL .JpegImagePlugin.JpegImageFile 圖片模式=RGB 大小=4160x3120>,### 'question': '這棟建築的照明怎麼樣？ ',### 'option0': '高',### 'option1': '低',### '選項2': '中',### '選項3': '不適用',### 'question_type': 2,### 'question_concern': 3,### ' Correct_choice '：'B'}

Q-Bench2（影像對）

 from datasets import load_datasetds = load_dataset("q-future/Q-Bench2-HF")print(ds["dev"][0])### {'id': 0,### 'image1': <PIL .Image.Image 映像模式=RGB size=4032x3024>,### 'image2': <PIL.JpegImagePlugin.JpegImageFile 映像模式=RGB size=864x1152>,### 'question': '# ，如何第二張圖片的清晰度是多少？ ## ' option3': 'N/A',### 'question_type': 2,### 'question_concern': 0,### ' Correct_choice': 'B'}

發布

[2024/8/8] Q-bench+（也稱為Q-Bench2）的低階視覺比較任務部分剛被TPAMI接受！快來用 Q-bench+_Dataset 測試你的 MLLM。
[2024/8/1] Q-Bench已在VLMEvalKit 上發布，快來用“python run.py --data Q-Bench1_VAL Q-Bench1_TEST --model InternVL2-1B --verbose”這樣的命令測試您的LMM 。
[2024/6/17] Q-Bench 、 Q-Bench2 （Q-bench+）和A-Bench現已加入lmms-eval，這使得測試LMM變得更加容易！
[2024/6/3] A-Bench的 Github 倉庫上線。您想知道您的 LMM 是否是評估 AI 生成影像的高手嗎？快來A-Bench上測試一下吧！
[3/1] 我們在此發布Co-instruct ，走向開放式視覺品質比較。更多詳細資訊即將推出。
[2/27] 我們的工作Q-Insturct已被CVPR 2024接收，嘗試了解如何指導MLLM進行低階視覺的詳細資訊！
[2/23] Q-bench+的低階視覺比較任務部分現已在Q-bench+（資料集）發布！
[2/10] 我們正在發布擴展的 Q-bench+，它在低級視覺上用單圖像和圖像對挑戰 MLLM。排行榜現場，快來看看你最喜歡的MLLM的低階視力能力吧！更多詳細資訊即將推出。
[1/16] 我們的工作「Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision」被ICLR2024 接受為 Spotlight Present 。

閉源 MLLM（GPT-4V-Turbo、Gemini、Qwen-VL-Plus、GPT-4V）

我們測試了三個閉源API模型，GPT-4V-Turbo（ gpt-4-vision-preview ，替換不再可用的舊版本GPT-4V 結果）、Gemini Pro（ gemini-pro-vision ）和 Qwen -VL -Plus ( qwen-vl-plus )。與舊版本相比略有改進，GPT-4V 仍然在所有 MLLM 中名列前茅，幾乎達到了初級人類的表現。 Gemini Pro 和 Qwen-VL-Plus 緊隨其後，仍然優於最好的開源 MLLM（總體為 0.65）。

[2024/7/18]更新，我們很高興發布BlueImage-GPT （閉源）的新SOTA效能。

感知，A1-單人

參加者姓名	是還是不是	什麼	如何	失真	其他的	情境扭曲	上下文中的其他人	全面的
Qwen-VL-Plus ( `qwen-vl-plus` )	0.7574	0.7325	0.5733	0.6488	0.7324	0.6867	0.7056	0.6893
BlueImage-GPT（ `from VIVO`新冠軍）	0.8467	0.8351	0.7469	0.7819	0.8594	0.7995	0.8240	0.8107
Gemini-Pro ( `gemini-pro-vision` )	0.7221	0.7300	0.6645	0.6530	0.7291	0.7082	0.7665	0.7058
GPT-4V-Turbo ( `gpt-4-vision-preview` )	0.7722	0.7839	0.6645	0.7101	0.7107	0.7936	0.7891	0.7410
GPT-4V（舊版）	0.7792	0.7918	0.6268	0.7058	0.7303	0.7466	0.7795	0.7336
人類-1-初級	0.8248	0.7939	0.6029	0.7562	0.7208	0.7637	0.7300	0.7431
人類-2-高級	0.8431	0.8894	0.7202	0.7965	0.7947	0.8390	0.8707	0.8174

感知，A1 對

參加者姓名	是還是不是	什麼	如何	失真	其他的	比較	聯合的	全面的
Qwen-VL-Plus ( `qwen-vl-plus` )	0.6685	0.5579	0.5991	0.6246	0.5877	0.6217	0.5920	0.6148
Qwen-VL-Max ( `qwen-vl-max` )	0.6765	0.6756	0.6535	0.6909	0.6118	0.6865	0.6129	0.6699
BlueImage-GPT（ `from VIVO`新冠軍）	0.8843	0.8033	0.7958	0.8464	0.8062	0.8462	0.7955	0.8348
Gemini-Pro ( `gemini-pro-vision` )	0.6578	0.5661	0.5674	0.6042	0.6055	0.6046	0.6044	0.6046
GPT-4V（ `gpt-4-vision` ）	0.7975	0.6949	0.8442	0.7732	0.7993	0.8100	0.6800	0.7807
初級人類	0.7811	0.7704	0.8233	0.7817	0.7722	0.8026	0.7639	0.8012
高階人力	0.8300	0.8481	0.8985	0.8313	0.9078	0.8655	0.8225	0.8548

我們最近也評估了幾個新的開源模型，並將很快發布他們的結果。

A1/A2 提交指南

選項 1：提交結果

第 1 步：下載映像

我們現在提供兩種下載資料集的方式（LLVisionQA&LLDescribe）

透過 GitHub 發布：請參閱我們的發布以了解詳細資訊。
透過 Huggingface 資料集：請參閱資料發布說明下載影像。

第 2 步：使用您的模型進行測試

強烈建議將您的模型轉換為 Huggingface 格式，以便順利測試這些資料。請參閱 Huggingface 的 IDEFICS-9B-Instruct 的範例腳本作為範例，並針對您的自訂模型修改它們以在您的模型上進行測試。

請發送電子郵件至[email protected]以 json 格式提交您的結果。

選項 2：提交模型

您也可以將您的模型（可以是 Huggingface AutoModel 或 ModelScope AutoModel）連同您的自訂評估腳本一起提交給我們。您可以從適用於 LLaVA-v1.5（適用於 A1/A2）和此處（適用於影像品質評估）的範本腳本修改您的自訂腳本。

如果您不在中國大陸，請發送電子郵件至[email protected]提交您的模型。如果您在中國大陸，請發送電子郵件至[email protected]提交您的模型。

A1：感知

MLLM 低階感知能力的 LLVisionQA 基準資料集快照如下。請參閱此處的排行榜。

我們在這裡衡量 MLLM（提供問題和所有選擇）的答案準確性作為指標。

A2：說明

MLLM 低階描述能力的 LLDescribe 基準資料集快照如下。請參閱此處的排行榜。

我們衡量 MLLM 描述的完整性、精確性和相關性作為此處的指標。

A3：評估

MLLM 能夠預測 IQA 的定量分數，這是一項令人興奮的能力！

方法論

預測分數

虛擬程式碼

與上面類似，只要一個模型（基於因果語言模型）具有以下兩個方法： embed_image_and_text （允許多模態輸入）和forward （用於計算logits），就可以用該模型進行圖像品質評估（IQA）可以通過如下方式實現：

 from PIL import Imagefrom my_mllm_model import Model, Tokenizer, embed_image_and_textmodel, tokenizer = Model(), Tokenizer()prompt = "##User: 評價影像的品質.n"
          "##Assistant: 影像品質為" ### 這行可以根據 MLLM 的預設行為進行修改。 image_for_iqa.jpg")input_embeds = embed_image_and_text(圖像，提示)output_logits = model(input_embeds=input_embeds).logits[0,-1]q_pred = (output_logits[[good_idx, 100,-1]q_pred = (output_logits[[good_idx, 100] 0]

*請注意，您可以根據模型的預設格式修改第二行，例如對於Shikra，「##Assistant：圖像的品質是」修改為「##Assistant：答案是」。如果您的 MLLM 首先回答“好的，我想幫忙！圖像品質是”，沒關係，只需將其替換為提示的第 2 行即可。

IDEFICS 的實際程式碼範例

我們進一步在 IQA 上提供 IDEFICS 的全面實施。請參閱有關如何使用此 MLLM 運行 IQA 的範例。其他 MLLM 也可以以相同的方式修改以用於 IQA。

使用 IQA 資料庫計算 SRCC/PLCC

我們為我們的基準測試中評估的七個 IQA 資料庫準備了 JSON 格式的人類意見評分 (MOS)。

詳細資訊請參閱IQA_databases。

IQA 資料庫的官方結果

移至排行榜。請點擊查看詳情。

接觸

如有疑問，請聯絡本文的第一作者。

吳浩寧， [email protected] ，@teowu
張子成, [email protected] , @zzc-1998
張二麗， [email protected] ，@ZhangErliCarl

引文

如果您發現我們的工作有趣，請隨時引用我們的論文：

 @inproceedings{wu2024qbench,author = {吳、浩寧和張、子成和張、二里和陳、朝風和廖、樑和王、安南和李、春一和孫、文秀和嚴、瓊和翟、廣濤和林， Weisi},title = {Q-Bench: 低水平視覺通用基礎模型的基準},booktitle = {ICLR},year = {2024}}

展開

附加信息