最近、マルチモーダル大規模言語モデル (MLLM) のパフォーマンス評価が、人工知能の分野での研究のホットスポットになっています。メリーランド大学とノースカロライナ大学チャペルヒルが共同で立ち上げた Mementos ベンチマークは、画像シーケンスの処理における MLLM の能力を評価するための新しい基準を提供します。このテストは、現実世界、ロボット、アニメーションなどのさまざまなシーンの画像シーケンスを対象とし、MLLM の推論能力を包括的に検査するように設計されています。テスト結果のリリースは、MLLM の利点と限界を理解するための貴重なデータを提供します。
最近、メリーランド大学とノースカロライナ チャペルヒル校が協力して、マルチモーダル大規模言語モデル用に特別に設計された画像シーケンス ベンチマークをリリースしました。これは、現実世界、ロボット、およびモデルの推論能力を包括的にテストするように設計されています。アニメーション画像シーケンス。ただし、テスト結果は衝撃的で、GPT-4V や Gemini などの MLLM がコミック データセットで達成した精度は 20% 未満でした。これは、画像シーケンスにおける錯覚、物体、および行動の理解を処理する際に、これらのモデルが明らかに不十分であることを明らかにしています。Mementos ベンチマーク テストの結果は、現在の主流の MLLM には、複雑な画像シーケンス、特にアニメーション画像シーケンスの処理において依然として重大な欠陥があることが示されています。これは、MLLM の将来の研究方向に重要な参考となるとともに、さまざまなアプリケーション シナリオにおける MLLM の信頼性について注意する必要があることを思い出させてくれます。今後の研究では、画像シーケンスを理解し、幻覚を軽減し、さまざまな種類の画像シーケンスに対する一般化能力を向上させる MLLM の能力を向上させる方法に焦点を当てる必要があります。