蘋果最新研究發布了MAD-Bench 基準測試,旨在評估多模態大語言模型(MLLMs)在處理誤導性資訊時的穩健性。這項研究透過850 對影像提示,對MLLMs 處理文字和影像一致性的能力進行全面評估,為MLLMs 的發展提供了寶貴的參考資料。此基準的建立,將有助於提升AI 模型的可靠性和抗干擾能力,推動AI 技術的健康發展。
蘋果研究提出MAD-Bench 基準,解決多模態大語言模型(MLLMs)處理誤導資訊脆弱性的問題。這項研究包含850 個影像提示對,評估了MLLMs 在處理文字和影像一致性方面的能力。研究發現GPT-4V 在場景理解和視覺混淆方面表現較好,為設計AI 模型提供了重要提示。透過MAD-Bench 基準,AI 模型的穩健性將會提升,未來研究將更加可靠。MAD-Bench 基準的出現,標誌著AI 模型評估進入一個新的階段,未來將會有更多更可靠的基準出現,推動AI 技術更加安全和可靠地發展,為人類社會帶來更多益處。