งานวิจัยล่าสุดของ Apple เปิดตัวการทดสอบเกณฑ์มาตรฐาน MAD-Bench ซึ่งได้รับการออกแบบมาเพื่อประเมินความทนทานของโมเดลภาษาขนาดใหญ่ (MLLM) แบบหลายรูปแบบเมื่อต้องรับมือกับข้อมูลที่ทำให้เข้าใจผิด การศึกษานี้ประเมินความสามารถของ MLLM ในการจัดการความสอดคล้องของข้อความและรูปภาพอย่างครอบคลุมผ่านการแจ้งรูปภาพ 850 คู่ ซึ่งให้ข้อมูลอ้างอิงที่มีคุณค่าสำหรับการพัฒนา MLLM การสร้างเกณฑ์มาตรฐานนี้จะช่วยปรับปรุงความน่าเชื่อถือและความสามารถในการป้องกันการรบกวนของโมเดล AI และส่งเสริมการพัฒนาเทคโนโลยี AI ที่ดี
Apple Research เสนอเกณฑ์มาตรฐาน MAD-Bench เพื่อแก้ปัญหาช่องโหว่ของโมเดลภาษาขนาดใหญ่ (MLLM) หลายรูปแบบในการจัดการข้อมูลที่ทำให้เข้าใจผิด การศึกษานี้ประกอบด้วยคู่คิวรูปภาพ 850 คู่ และประเมินความสามารถของ MLLM ในการจัดการความสอดคล้องกันของข้อความและรูปภาพ การศึกษาพบว่า GPT-4V ทำงานได้ดีขึ้นในการทำความเข้าใจฉากและความสับสนในการมองเห็น โดยให้คำแนะนำที่สำคัญในการออกแบบโมเดล AI ด้วยเกณฑ์มาตรฐาน MAD-Bench ความแข็งแกร่งของโมเดล AI จะได้รับการปรับปรุง และการวิจัยในอนาคตจะมีความน่าเชื่อถือมากขึ้นการเกิดขึ้นของเกณฑ์มาตรฐาน MAD-Bench ถือเป็นก้าวใหม่ในการประเมินโมเดล AI ในอนาคต จะมีเกณฑ์มาตรฐานที่เชื่อถือได้มากขึ้นเรื่อยๆ ปรากฏขึ้น เพื่อส่งเสริมการพัฒนาเทคโนโลยี AI อย่างปลอดภัยและเชื่อถือได้มากขึ้น และนำประโยชน์มาสู่สังคมมนุษย์มากขึ้น