近期,多模態大語言模型(MLLM)的效能評估已成為人工智慧領域的研究熱點。馬裡蘭大學和北卡教堂山合作推出的Mementos基準測試,為評估MLLM在處理影像序列方面的能力提供了一個新的標準。測驗涵蓋了真實世界、機器人和動漫等多種場景的影像序列,旨在全面檢視MLLM的推理能力。測試結果的發布,為我們理解MLLM的優勢和局限性提供了寶貴的數據。
近期,馬裡蘭大學與北卡教堂山合作發布了Mementos,這是專為多模態大語言模型設計的圖像序列基準測試,旨在全面測試這些模型對於真實世界、機器人和動漫圖像序列的推理能力。然而,檢驗結果令人震驚,GPT-4V和Gemini等MLLM在漫畫資料集上的準確率不足20%。這揭示了這些模型在處理影像序列中的幻覺、物件和行為理解方面的明顯不足。Mementos基準測試結果表明,目前主流的MLLM在處理複雜影像序列,特別是動漫影像序列方面仍有顯著不足。這為未來MLLM的研究方向提供了重要的參考,也提醒我們需謹慎看待MLLM在各種應用情境下的可靠性。未來研究需要關注如何提升MLLM對影像序列的理解能力,減少幻覺,並提高其在不同類型影像序列上的泛化能力。