苹果最新研究发布了 MAD-Bench 基准测试,旨在评估多模态大语言模型(MLLMs)在处理误导性信息时的鲁棒性。这项研究通过 850 对图像提示,对 MLLMs 处理文本和图像一致性的能力进行全面评估,为 MLLMs 的发展提供了宝贵的参考数据。该基准的建立,将有助于提升 AI 模型的可靠性和抗干扰能力,推动 AI 技术的健康发展。
苹果研究提出 MAD-Bench 基准,解决多模态大语言模型(MLLMs)处理误导信息脆弱性的问题。这项研究包含 850 个图像提示对,评估了 MLLMs 在处理文本和图像一致性方面的能力。研究发现 GPT-4V 在场景理解和视觉混淆方面表现较好,为设计 AI 模型提供了重要提示。通过 MAD-Bench 基准,AI 模型的鲁棒性将得到提升,未来研究将更加可靠。MAD-Bench 基准的出现,标志着 AI 模型评估进入一个新的阶段,未来将会有更多更可靠的基准出现,推动 AI 技术更加安全和可靠地发展,为人类社会带来更多益处。