Multi-Modality Arena是大型多模态模型的评估平台。在 Fastchat 之后,两个匿名模型在视觉问答任务上并排进行了比较。我们发布了Demo ,欢迎大家参与本次评测活动。
OmniMedVQA 数据集:包含 118,010 张图像和 127,995 个 QA 项目,涵盖 12 种不同模式,涉及 20 多个人体解剖区域。数据集可以从这里下载。
12 个模型:8 个通用领域 LVLM 和 4 个医学专用 LVLM。
微小数据集:每个数据集仅随机选择 50 个样本,即 42 个与文本相关的视觉基准和总共 2.1K 个样本,以便于使用。
更多型号:另外4款,即总共12款,其中包括Google Bard 。
ChatGPT Ensemble Evalution :与之前的单词匹配方法相比,提高了与人类评估的一致性。
LVLM-eHub 是公开的大型多模态模型 (LVLM) 的综合评估基准。 它广泛评估
LVLM 排行榜根据特定的目标能力(包括视觉感知、视觉推理、视觉常识、视觉知识获取和物体幻觉)对 Tiny LVLM 评估中的数据集进行系统分类。该排行榜包括最近发布的模型,以增强其综合性。
您可以从这里下载基准测试,更多详细信息可以在此处找到。
秩 | 模型 | 版本 | 分数 |
---|---|---|---|
1 | 实习生VL | 实习生VL-Chat | 327.61 |
2 | 实习生LM-XComposer-VL | 实习生LM-XComposer-VL-7B | 322.51 |
3 | 诗人 | 诗人 | 319.59 |
4 | Qwen-VL-聊天 | Qwen-VL-聊天 | 316.81 |
5 | LLaVA-1.5 | 骆驼毛-7B | 307.17 |
6 | 指导BLIP | 骆驼毛-7B | 300.64 |
7 | 实习生LM-X作曲家 | 实习生LM-XComposer-7B | 288.89 |
8 | BLIP2 | 馅饼T5xl | 284.72 |
9 | 布利瓦 | 骆驼毛-7B | 284.17 |
10 | 山猫 | 骆驼毛-7B | 279.24 |
11 | 猎豹 | 骆驼毛-7B | 258.91 |
12 | LLaMA-适配器-v2 | 拉马-7B | 229.16 |
13 | 维普吉运输公司 | 骆驼毛-7B | 218.91 |
14 | 水獭图像 | Otter-9B-LA-InContext | 216.43 |
15 | 视觉GLM-6B | 视觉GLM-6B | 211.98 |
16 | mPLUG-Owl | 拉马-7B | 209.40 |
17 号 | 拉瓦 | 骆驼毛-7B | 200.93 |
18 | 迷你GPT-4 | 骆驼毛-7B | 192.62 |
19 | 獭 | 水獭9B | 180.87 |
20 | OFv2_4BI | RedPajama-INCITE-Instruct-3B-v1 | 176.37 |
21 | 熊猫GPT | 骆驼毛-7B | 174.25 |
22 | 拉文 | 拉马-7B | 97.51 |
23 | MIC | 馅饼T5xl | 94.09 |
2024 年 3 月 31 日,我们发布了 OmniMedVQA,一个针对医疗 LVLM 的大规模综合评估基准。同时,我们有 8 个通用领域 LVLM 和 4 个医学专用 LVLM。欲了解更多详情,请访问 MedicalEval。
2023 年 10 月 16 日。我们提出了源自 LVLM-eHub 的能力级别数据集分割,并补充了八个最近发布的模型。如需访问数据集分割、评估代码、模型推理结果和综合性能表,请访问tiny_lvlm_evaluation ✅。
2023年8月8日,我们发布了【Tiny LVLM-eHub】 。评估源代码和模型推理结果在tiny_lvlm_evaluation下开源。
2023 年 6 月 15 日。我们发布了大型视觉语言模型的评估基准[LVLM-eHub] 。代码即将推出。
2023年6月8日,感谢VPGTrans作者张博士的指正。 VPGTrans的作者主要来自新加坡国立大学和清华大学。我们之前在重新实现 VPGTrans 时遇到了一些小问题,但我们发现它的性能实际上更好。更多模型作者请通过Email联系我进行讨论。另外,请关注我们的模型排名列表,以获得更准确的结果。
可能。 2023年2月22日,感谢mPLUG-Owl的作者叶博士的指正。我们修复了 mPLIG-Owl 实施中的一些小问题。
目前参与随机战斗的模型如下:
KAUST/MiniGPT-4
Salesforce/BLIP2
Salesforce/InstructBLIP
达摩院/mPLUG-Owl
南洋理工大学/水獭
威斯康星大学麦迪逊分校/LLaVA
上海人工智能实验室/llama_adapter_v2
新加坡国立大学/VPGTrans
有关这些模型的更多详细信息可以在./model_detail/.model.jpg
中找到。我们将尝试调度计算资源以在竞技场中托管更多的多模态模型。
如果您对我们VLarena平台的任何内容感兴趣,请随时加入微信群。
创建conda环境
conda 创建-n arena python=3.10 康达激活竞技场
安装运行控制器和服务器所需的软件包
pip 安装 numpy gradio uvicorn fastapi
然后,对于每个模型,它们可能需要冲突版本的 python 包,我们建议根据其 GitHub 存储库为每个模型创建特定环境。
要使用 Web UI 提供服务,您需要三个主要组件:与用户交互的 Web 服务器、托管两个或多个模型的模型工作人员以及协调 Web 服务器和模型工作人员的控制器。
以下是您的终端中要遵循的命令:
python控制器.py
该控制器管理分布式工作人员。
python model_worker.py --模型名称 SELECTED_MODEL --设备 TARGET_DEVICE
等待进程完成加载模型,您会看到“Uvicorn running on ...”。模型工作人员会将自己注册到控制器。对于每个模型工作者,您需要指定模型和要使用的设备。
python server_demo.py
这是用户将与之交互的用户界面。
通过执行这些步骤,您将能够使用 Web UI 为您的模型提供服务。您现在可以打开浏览器并与模特聊天。如果模型未显示,请尝试重新启动 gradio Web 服务器。
我们非常重视旨在提高评估质量的所有贡献。本节包括两个关键部分: Contributions to LVLM Evaluation
和Contributions to LVLM Arena
。
您可以在 LVLM_evaluation 文件夹中访问最新版本的评估代码。该目录包含一套全面的评估代码,并附有必要的数据集。如果您热衷于参与评估过程,请随时通过电子邮件 [email protected] 与我们分享您的评估结果或模型推理 API。
我们对您有兴趣将您的模型集成到我们的 LVLM Arena 表示感谢!如果您希望将您的模型纳入我们的 Arena,请准备一个结构如下的模型测试器:
class ModelTester:def __init__(self, device=None) -> None:# TODO: 初始化模型和所需的预处理器def move_to_device(self, device) -> None:# TODO: 该函数用于在CPU和CPU之间传输模型GPU (可选)defgenerate(self, image, Question) -> str: # TODO: 模型推理代码
此外,我们对在线模型推理链接持开放态度,例如 Gradio 等平台提供的链接。我们衷心感谢您的贡献。
我们对 ChatBot Arena 受人尊敬的团队以及他们的论文《Judging LLM-as-a-judge》表示感谢,感谢他们的影响力工作,这些工作为我们的 LVLM 评估工作提供了灵感。我们还要向 LVLM 的提供者致以诚挚的谢意,他们的宝贵贡献为大型视觉语言模型的进步和进步做出了重大贡献。最后,我们感谢 LVLM-eHub 中使用的数据集的提供者。
该项目是一个实验研究工具,仅用于非商业目的。它的保护措施有限,并且可能会生成不当内容。它不能用于任何非法、有害、暴力、种族主义或性行为。