Загрузка Q Bench - Загрузка исходного кода Q Bench

Q Bench

Другой исходный код

1.0.0

Скачать

Q-Bench: эталон для базовых моделей общего назначения для низкоуровневого зрения

Как мультимодальные LLM работают с низкоуровневым компьютерным зрением?

Хаонин Ву ¹ ^* , Цзычэн Чжан ² ^* , Эрли Чжан ¹ ^* , Чаофэн Чен ¹ , Лян Ляо ¹ ,

Аннань Ван ¹ , Чуньи Ли ² , Вэньсю Сунь ³ , Цюн Янь ³ , Гуантао Чжай ² , Вэйси Линь ¹ ^#

¹ Наньянский технологический университет, ² Шанхайский университет Цзяотун, ³ Исследовательский институт Sensetime

^* Равный вклад. ^# Автор переписки.

ICLR2024 В центре внимания

Предлагаемый Q-Bench включает три области зрения низкого уровня: восприятие (A1), описание (A2) и оценку (A3).

Для восприятия (A1)/описания (A2) мы собираем два эталонных набора данных LLVisionQA/LLDescribe.
Мы открыты для оценки этих двух задач на основе представленных материалов . Подробности подачи следующие.
Для оценки (A3), поскольку мы используем общедоступные наборы данных , мы предоставляем абстрактный код оценки для произвольных MLLM, который может протестировать каждый.

Использование с API `datasets`

Для Q-Bench-A1 (с вопросами с несколькими вариантами ответов) мы преобразовали их в наборы данных в формате HF, которые можно автоматически загружать и использовать с API datasets . Пожалуйста, обратитесь к следующей инструкции:

 наборы данных установки pip

Q-Bench (отдельные изображения)

 из наборов данных import load_datasetds = load_dataset("q-future/Q-Bench-HF")print(ds["dev"][0])### {'id': 0,### 'image': <PIL .JpegImagePlugin.JpegImageFile image mode=RGB size=4160x3120>,### 'question': 'Как это освещение здание?',### 'option0': 'Высокий',### 'option1': 'Низкий',### 'option2': 'Средний',### 'option3': 'Н/Д', ### 'question_type': 2,### 'question_concern': 3,### 'correct_choice': 'B'}

Q-Bench2 (пары изображений)

 из наборов данных import load_datasetds = load_dataset("q-future/Q-Bench2-HF")print(ds["dev"][0])### {'id': 0,### 'image1': <PIL .Image.Image image mode=размер RGB=4032x3024>,### 'image2': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=864x1152>,### 'question': 'Какова четкость второго изображения по сравнению с первым изображением?',### 'option0': 'Более размытым',### 'option1 ': 'Четче',### 'option2': 'Примерно то же самое',### 'option3': 'N/A',### 'question_type': 2,### 'question_concern': 0,### 'correct_choice': 'B'}

Выпускать

[2024/8/8] Часть задачи низкоуровневого сравнения зрения в Q-bench+ (также называемая Q-Bench2) только что была принята TPAMI! Приходите и протестируйте свой MLLM с помощью Q-bench+_Dataset.
[2024/8/1] Q-Bench выпущен на VLMEvalKit, приходите и протестируйте свой LMM с помощью одной команды, например `python run.py --data Q-Bench1_VAL Q-Bench1_TEST --model InternVL2-1B --verbose'.
[2024/6/17] Q-Bench , Q-Bench2 (Q-bench+) и A-Bench теперь присоединились к lmms-eval, что упрощает тестирование LMM !!
[2024/6/3] Репозиторий A-Bench на Github доступен онлайн. Хотите узнать, является ли ваш LMM мастером оценки изображений, созданных ИИ? Приходите и протестируйте на A-Bench !!
[3/1] Мы выпускаем Co-instruct « На пути к открытому визуальному сравнению качества» здесь. Более подробная информация появится в ближайшее время.
[2/27] Наша работа Q-Insturct была принята CVPR 2024. Попробуйте узнать подробности о том, как инструктировать MLLM по низкоуровневому зрению!
[2/23] Часть Q-bench+ для низкоуровневого сравнения изображений теперь доступна в Q-bench+(Dataset)!
[2/10] Мы выпускаем расширенный тест Q-bench+, который бросает вызов MLLM как с отдельными изображениями, так и с парами изображений при низком уровне зрения. Таблица лидеров находится на месте, проверьте способность ваших любимых MLLM к низкоуровневому зрению! Более подробная информация скоро появится.
[1/16] Наша работа «Q-Bench: эталон для базовых моделей общего назначения для низкоуровневого зрения» принята ICLR2024 в качестве презентации .

MLLM с закрытым исходным кодом (GPT-4V-Turbo, Gemini, Qwen-VL-Plus, GPT-4V)

Мы тестируем три модели API с закрытым исходным кодом: GPT-4V-Turbo ( gpt-4-vision-preview , замена более недоступной старой версии результатов GPT-4V), Gemini Pro ( gemini-pro-vision ) и Qwen. -ВЛ-Плюс ( qwen-vl-plus ). Немного улучшенный по сравнению со старой версией, GPT-4V по-прежнему лидирует среди всех MLLM и по производительности почти соответствует человеческому уровню младшего уровня. Gemini Pro и Qwen-VL-Plus следуют за ними, но все же лучше, чем лучшие MLLM с открытым исходным кодом (общий показатель 0,65).

Обновление от [2024/7/18]. Мы рады представить новую версию SOTA BlueImage-GPT (с закрытым исходным кодом).

Восприятие, А1-Одиночный

Имя участника	Да или нет	что	как	искажение	другие	искажение контекста	в контексте другие	общий
Квен-ВЛ-Плюс ( `qwen-vl-plus` )	0,7574	0,7325	0,5733	0,6488	0,7324	0,6867	0,7056	0,6893
BlueImage-GPT ( `from VIVO` New Champion )	0,8467	0,8351	0,7469	0,7819	0,8594	0,7995	0,8240	0,8107
Близнецы-Про ( `gemini-pro-vision` )	0,7221	0,7300	0,6645	0,6530	0,7291	0,7082	0,7665	0,7058
GPT-4V-Турбо ( `gpt-4-vision-preview` )	0,7722	0,7839	0,6645	0,7101	0,7107	0,7936	0,7891	0,7410
ГПТ-4В ( старая версия )	0,7792	0,7918	0,6268	0,7058	0,7303	0,7466	0,7795	0,7336
человек-1-младший	0,8248	0,7939	0,6029	0,7562	0,7208	0,7637	0,7300	0,7431
человек-2-старший	0,8431	0,8894	0,7202	0,7965	0,7947	0,8390	0,8707	0,8174

Восприятие, пара А1

Имя участника	Да или нет	что	как	искажение	другие	сравнивать	соединение	общий
Квен-ВЛ-Плюс ( `qwen-vl-plus` )	0,6685	0,5579	0,5991	0,6246	0,5877	0,6217	0,5920	0,6148
Квен-ВЛ-Макс ( `qwen-vl-max` )	0,6765	0,6756	0,6535	0,6909	0,6118	0,6865	0,6129	0,6699
BlueImage-GPT ( `from VIVO` New Champion )	0,8843	0,8033	0,7958	0,8464	0,8062	0,8462	0,7955	0,8348
Близнецы-Про ( `gemini-pro-vision` )	0,6578	0,5661	0,5674	0,6042	0,6055	0,6046	0,6044	0,6046
ГПТ-4В ( `gpt-4-vision` )	0,7975	0,6949	0,8442	0,7732	0,7993	0,8100	0,6800	0,7807
Человек младшего уровня	0,7811	0,7704	0,8233	0,7817	0,7722	0,8026	0,7639	0,8012
Человек старшего уровня	0,8300	0,8481	0,8985	0,8313	0,9078	0,8655	0,8225	0,8548

Недавно мы также оценили несколько новых моделей с открытым исходным кодом и скоро опубликуем их результаты.

Руководство по подаче документов формата A1/A2

Вариант 1: Отправить результаты

Шаг 1. Загрузите изображения

Теперь мы предоставляем два способа загрузки наборов данных (LLVisionQA&LLDescribe).

через GitHub Релиз: подробности смотрите в нашем релизе.
через наборы данных Huggingface: Чтобы загрузить изображения, обратитесь к примечаниям к выпуску данных.

Шаг 2. Протестируйте свою модель

Настоятельно рекомендуется преобразовать вашу модель в формат Huggingface, чтобы беспрепятственно протестировать эти данные. Посмотрите примеры сценариев для IDEFICS-9B-Instruct от Huggingface и измените их для своей пользовательской модели для тестирования на ней.

Отправьте электронное письмо по адресу [email protected] чтобы отправить результат в формате json.

Вариант 2: Отправить модель

Вы также можете отправить нам свою модель (это может быть Huggingface AutoModel или ModelScope AutoModel) вместе со своими собственными сценариями оценки. Ваши пользовательские сценарии можно изменить из шаблонных сценариев, которые работают для LLaVA-v1.5 (для A1/A2), и здесь (для оценки качества изображения).

Если вы находитесь за пределами материкового Китая, отправьте электронное письмо по адресу [email protected] чтобы отправить свою модель. Если вы находитесь на территории материкового Китая, отправьте электронное письмо по адресу [email protected] , чтобы отправить свою модель.

А1: Восприятие

Снимок набора эталонных данных LLVisionQA для способности восприятия низкого уровня MLLM выглядит следующим образом. Посмотреть таблицу лидеров можно здесь.

Картина

В качестве показателя здесь мы измеряем точность ответов MLLM (предоставляемых вместе с вопросом и всеми вариантами ответов).

А2: Описание

Снимок эталонного набора данных LLDescribe для возможности низкоуровневого описания MLLM выглядит следующим образом. Посмотреть таблицу лидеров можно здесь.

Картина

В качестве показателя здесь мы измеряем полноту , точность и релевантность описаний MLLM.

А3: Оценка

Замечательная способность MLLM предсказывать количественные показатели IQA!

Методология

Картина

Предсказать счет

Псевдокод

Аналогично вышеизложенному, пока модель (основанная на моделях причинного языка) имеет следующие два метода: embed_image_and_text (для обеспечения мультимодальных входных данных) и forward (для вычисления логитов), оценка качества изображения (IQA) с моделью может быть достигнуто следующим образом:

 из PIL import Imagefrom my_mllm_model import Model, Tokenizer, embed_image_and_textmodel, tokenizer = Model(), Tokenizer()prompt = "##User: Оцените качество изображения.n"
          "##Ассистент: Качество изображения" ### Эту строку можно изменить в зависимости от поведения MLLM по умолчанию.good_idx, bad_idx = tokenizer(["хорошо","плохо"]).tolist()image = Image. open("image_for_iqa.jpg")input_embeds = embed_image_and_text(изображение, подсказка)output_logits = model(input_embeds=input_embeds).logits[0,-1]q_pred = (output_logits[[good_idx, bad_idx]] / 100).softmax(0)[0]

*Обратите внимание, что вы можете изменить вторую строку в соответствии с форматом вашей модели по умолчанию, например , для Shikra «##Ассистент: Качество изображения» изменяется на «##Ассистент: Ответ есть». Ничего страшного, если ваш MLLM сначала ответит: «Хорошо, я хотел бы помочь! Качество изображения хорошее», просто замените это во второй строке приглашения.

Пример реального кода для IDEFICS

Далее мы обеспечиваем полную реализацию IDEFICS на IQA. См. пример того, как запустить IQA с помощью этого MLLM. Другие MLLM также могут быть изменены таким же образом для использования в IQA.

Вычисление SRCC/PLCC с базами данных IQA

Мы подготовили оценки общественного мнения (MOS) в формате JSON для семи баз данных IQA, как оценивалось в нашем тесте.

Подробную информацию см. в IQA_databases.

Официальные результаты в базах данных IQA

Перенесено в списки лидеров. Пожалуйста, нажмите, чтобы увидеть подробности.

Контакт

Пожалуйста, свяжитесь с любым из первых авторов этой статьи с вопросами.

Хаонин Ву, [email protected] , @teowu
Цзычэн Чжан, [email protected] , @zzc-1998
Эрли Чжан, [email protected] , @ZhangErliCarl

Цитирование

Если наша работа покажется вам интересной, пожалуйста, цитируйте нашу статью:

 @inproceedings{wu2024qbench,author = {У, Хаонин и Чжан, Цзычэн и Чжан, Эрли и Чен, Чаофэн и Ляо, Лян и Ван, Аннан и Ли, Чуньи и Сунь, Вэньсю и Янь, Цюн и Чжай, Гуантао и Линь, Weisi},title = {Q-Bench: эталонный тест для моделей фундамента общего назначения на Низкоуровневое видение},booktitle = {ICLR},year = {2024}}

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2024-12-02
размер 32.03MB
От Github

Связанные приложения

Q Bench

Q-Bench: эталон для базовых моделей общего назначения для низкоуровневого зрения

Использование с API `datasets`

Q-Bench (отдельные изображения)

Q-Bench2 (пары изображений)

Выпускать

MLLM с закрытым исходным кодом (GPT-4V-Turbo, Gemini, Qwen-VL-Plus, GPT-4V)

Руководство по подаче документов формата A1/A2

Вариант 1: Отправить результаты

Шаг 1. Загрузите изображения

Шаг 2. Протестируйте свою модель

Вариант 2: Отправить модель

А1: Восприятие

А2: Описание

А3: Оценка

Методология

Предсказать счет

Псевдокод

Пример реального кода для IDEFICS

Вычисление SRCC/PLCC с базами данных IQA

Официальные результаты в базах данных IQA

Контакт

Цитирование

Qfang.com

Приложение QCFUN

Приложение Барби Q

Беспокойтесь о вопросе Q

52 повесить вопрос

Q-режим

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

Q Bench

Q-Bench: эталон для базовых моделей общего назначения для низкоуровневого зрения

Использование с API datasets

Q-Bench (отдельные изображения)

Q-Bench2 (пары изображений)

Выпускать

MLLM с закрытым исходным кодом (GPT-4V-Turbo, Gemini, Qwen-VL-Plus, GPT-4V)

Руководство по подаче документов формата A1/A2

Вариант 1: Отправить результаты

Шаг 1. Загрузите изображения

Шаг 2. Протестируйте свою модель

Вариант 2: Отправить модель

А1: Восприятие

А2: Описание

А3: Оценка

Методология

Предсказать счет

Псевдокод

Пример реального кода для IDEFICS

Вычисление SRCC/PLCC с базами данных IQA

Официальные результаты в базах данных IQA

Контакт

Цитирование

Использование с API `datasets`