Penelitian terbaru Apple merilis tes benchmark MAD-Bench, yang dirancang untuk mengevaluasi ketahanan model bahasa besar multi-modal (MLLM) ketika menangani informasi yang menyesatkan. Studi ini secara komprehensif mengevaluasi kemampuan MLLM dalam menangani konsistensi teks dan gambar melalui 850 pasang perintah gambar, memberikan data referensi yang berharga untuk pengembangan MLLM. Penetapan tolok ukur ini akan membantu meningkatkan keandalan dan kemampuan anti-interferensi model AI serta mendorong perkembangan teknologi AI yang sehat.
Apple Research mengusulkan benchmark MAD-Bench untuk memecahkan masalah kerentanan model bahasa besar multi-modal (MLLM) dalam menangani informasi yang menyesatkan. Penelitian ini terdiri dari 850 pasangan isyarat gambar dan mengevaluasi kemampuan MLLM dalam menangani kesesuaian teks dan gambar. Studi ini menemukan bahwa GPT-4V memiliki performa lebih baik dalam pemahaman pemandangan dan kebingungan visual, sehingga memberikan tips penting untuk merancang model AI. Melalui benchmark MAD-Bench, ketahanan model AI akan ditingkatkan, dan penelitian di masa depan akan lebih andal.Munculnya benchmark MAD-Bench menandai babak baru dalam evaluasi model AI. Di masa depan, akan semakin banyak tolok ukur yang dapat diandalkan yang akan mendorong perkembangan teknologi AI dengan lebih aman dan andal, serta membawa lebih banyak manfaat bagi masyarakat manusia.