โมเดลภาษาภาพ (VLM) มีบทบาทสำคัญในงานต่อเนื่องหลายรูปแบบ แต่กลับประสบปัญหาข้อบกพร่องที่สำคัญในการทำความเข้าใจการปฏิเสธ โมเดลที่มีอยู่มักจะมีปัญหาในการแยกแยะความแตกต่างระหว่างประโยคเชิงบวกและเชิงลบ ซึ่งน่ากังวลอย่างยิ่งในการใช้งานที่ต้องใช้ความเข้าใจความหมายที่แม่นยำ เช่น การวินิจฉัยทางการแพทย์ และการตรวจสอบความปลอดภัย สาเหตุที่แท้จริงคือความเอนเอียงในข้อมูลก่อนการฝึกอบรมที่ทำให้แบบจำลองสับสนระหว่างข้อความเชิงลบกับข้อความเชิงบวก บทความนี้จะแนะนำเฟรมเวิร์กใหม่ที่เรียกว่า NegBench ซึ่งมีจุดมุ่งหมายเพื่อแก้ไขปัญหาความสามารถที่ VLM ไม่เพียงพอในการทำความเข้าใจการปฏิเสธ
โมเดลภาษาภาพ (VLM) มีบทบาทสำคัญในงานหลายรูปแบบ เช่น การเรียกภาพ คำอธิบายภาพ และการวินิจฉัยทางการแพทย์ เป้าหมายของแบบจำลองเหล่านี้คือการจัดข้อมูลภาพให้สอดคล้องกับข้อมูลทางภาษาเพื่อให้สามารถประมวลผลข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น อย่างไรก็ตาม VLM ในปัจจุบันยังคงเผชิญกับความท้าทายที่สำคัญในการทำความเข้าใจการปฏิเสธ
การปฏิเสธเป็นสิ่งสำคัญในการใช้งานหลายอย่าง เช่น การแยกความแตกต่างระหว่าง "ห้องที่ไม่มีหน้าต่าง" และ "ห้องที่มีหน้าต่าง" แม้จะมีความก้าวหน้าอย่างมากใน VLM แต่ประสิทธิภาพของโมเดลที่มีอยู่ก็ลดลงอย่างมากเมื่อต้องรับมือกับข้อความเชิงลบ ข้อจำกัดนี้มีความสำคัญอย่างยิ่งในพื้นที่ที่มีความเสี่ยงสูง เช่น การเฝ้าระวังความปลอดภัยและการดูแลสุขภาพ
VLM ที่มีอยู่ เช่น CLIP ใช้พื้นที่ฝังที่ใช้ร่วมกันเพื่อจัดการแสดงภาพและข้อความ แม้ว่าโมเดลเหล่านี้จะทำงานได้ดีกับงานต่างๆ เช่น การดึงข้อมูลข้ามโมดัลและคำบรรยายภาพ แต่ก็ล้มเหลวเมื่อต้องรับมือกับประโยคเชิงลบ รากของปัญหานี้อยู่ที่อคติในข้อมูลก่อนการฝึกอบรม ซึ่งประกอบด้วยตัวอย่างเชิงบวกเป็นหลัก ทำให้แบบจำลองถือว่าข้อความเชิงลบและเชิงบวกมีความหมายเหมือนกัน ดังนั้นเกณฑ์มาตรฐานที่มีอยู่ เช่น CREPE และ CC-Neg จึงใช้ตัวอย่างเทมเพลตง่ายๆ ที่ไม่สามารถสะท้อนถึงความสมบูรณ์และความลึกของการปฏิเสธในภาษาธรรมชาติได้อย่างแท้จริง สิ่งนี้ทำให้ VLM เผชิญกับความท้าทายอย่างมากเมื่อใช้งานแอปพลิเคชันการทำความเข้าใจภาษาที่แม่นยำ เช่น การสืบค้นเงื่อนไขที่ซับซ้อนในฐานข้อมูลภาพทางการแพทย์
เพื่อแก้ไขปัญหาเหล่านี้ นักวิจัยจาก MIT, Google DeepMind และ University of Oxford ได้เสนอกรอบงาน NegBench เพื่อประเมินและปรับปรุงความสามารถของ VLM ในการทำความเข้าใจการปฏิเสธ กรอบงานจะประเมินงานพื้นฐานสองงาน: การดึงข้อมูลและการปฏิเสธ (Retrieval-Neg) ซึ่งจะทดสอบความสามารถของแบบจำลองในการดึงภาพตามคำอธิบายเชิงบวกและเชิงลบ และคำถามและการปฏิเสธแบบปรนัย (MCQ-Neg) ซึ่งจะประเมินประสิทธิภาพของแบบจำลองในรูปแบบละเอียดอ่อน ความเข้าใจ NegBench ใช้ชุดข้อมูลสังเคราะห์ขนาดใหญ่ เช่น CC12M-NegCap และ CC12M-NegMCQ ซึ่งมีชื่อนับล้านรายการที่ครอบคลุมสถานการณ์เชิงลบที่หลากหลาย เพื่อปรับปรุงการฝึกอบรมโมเดลและการประเมินผล
ด้วยการรวมชุดข้อมูลจริงและสังเคราะห์เข้าด้วยกัน NegBench สามารถเอาชนะข้อจำกัดของโมเดลที่มีอยู่ได้อย่างมีประสิทธิภาพ และปรับปรุงประสิทธิภาพของโมเดลและความสามารถในการวางข้อมูลทั่วไปอย่างมีนัยสำคัญ โมเดลที่ได้รับการปรับแต่งอย่างละเอียดแสดงให้เห็นการปรับปรุงที่สำคัญทั้งในงานการสืบค้นและทำความเข้าใจ โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับคำค้นหาเชิงลบ ซึ่งการเรียกคืนโมเดลเพิ่มขึ้น 10% ในงานแบบปรนัย ความแม่นยำได้รับการปรับปรุงมากถึง 40% แสดงให้เห็นถึงความสามารถที่เพิ่มขึ้นอย่างมากในการแยกแยะระหว่างพาดหัวข่าวเชิงบวกและเชิงลบที่ละเอียดอ่อน
ข้อเสนอของ NegBench เติมเต็มช่องว่างสำคัญของ VLM ในการทำความเข้าใจการปฏิเสธ และปูทางสำหรับการสร้างระบบปัญญาประดิษฐ์ที่ทรงพลังยิ่งขึ้น ซึ่งมีความสำคัญอย่างยิ่งในสาขาสำคัญ ๆ เช่น การวินิจฉัยทางการแพทย์ และการดึงเนื้อหาเชิงความหมาย
บทความ: https://arxiv.org/abs/2501.09425
รหัส: https://github.com/m1k2zoo/negbench
ไฮไลท์:
นักวิจัยเปิดเผยว่าข้อบกพร่องของแบบจำลองภาษาภาพในการทำความเข้าใจการปฏิเสธส่วนใหญ่มาจากอคติในข้อมูลการฝึกอบรม
กรอบงาน NegBench ปรับปรุงประสิทธิภาพของโมเดลในงานการดึงข้อมูลและการทำความเข้าใจอย่างมีนัยสำคัญ โดยการแนะนำตัวอย่างเชิงลบที่หลากหลาย
เมื่อโมเดลที่ได้รับการปรับแต่งอย่างละเอียดจัดการกับคำถามเชิงลบ ความแม่นยำและอัตราการเรียกคืนจะดีขึ้นอย่างมาก ซึ่งส่งเสริมความก้าวหน้าของระบบปัญญาประดิษฐ์
การเกิดขึ้นของกรอบงาน NegBench มอบแนวทางแก้ไขที่มีประสิทธิภาพสำหรับปัญหาโมเดลภาษาภาพในการทำความเข้าใจการปฏิเสธ มีความสำคัญอย่างยิ่งในการปรับปรุงประสิทธิภาพของโมเดลและส่งเสริมการพัฒนาปัญญาประดิษฐ์ และคุ้มค่ากับการวิจัยและการประยุกต์ใช้เพิ่มเติม