近期,多模态大语言模型(MLLM)的性能评估成为人工智能领域的研究热点。马里兰大学和北卡教堂山合作推出的Mementos基准测试,为评估MLLM在处理图像序列方面的能力提供了一个新的标准。该测试涵盖了真实世界、机器人和动漫等多种场景的图像序列,旨在全面考察MLLM的推理能力。测试结果的发布,为我们理解MLLM的优势和局限性提供了宝贵的数据。
近期,马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而,测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。Mementos基准测试结果表明,当前主流的MLLM在处理复杂图像序列,特别是动漫图像序列方面仍存在显著不足。这为未来MLLM的研究方向提供了重要的参考,也提醒我们需谨慎看待MLLM在各种应用场景下的可靠性。未来研究需要关注如何提升MLLM对图像序列的理解能力,减少幻觉,并提高其在不同类型图像序列上的泛化能力。