تلعب نماذج اللغة المرئية (VLMs) دورًا رئيسيًا في المهام متعددة الوسائط، ولكنها تعاني من عيوب كبيرة في فهم النفي. غالبًا ما تواجه النماذج الحالية صعوبة في التمييز بين الجمل الإيجابية والسلبية، وهو أمر مثير للقلق بشكل خاص في التطبيقات التي تتطلب فهمًا دلاليًا دقيقًا، مثل التشخيص الطبي والمراقبة الأمنية. السبب الجذري هو التحيز في بيانات ما قبل التدريب الذي يتسبب في خلط النموذج بين العبارات السلبية والعبارات الإيجابية. ستقدم هذه المقالة إطار عمل جديد يسمى NegBench، والذي يهدف إلى حل مشكلة عدم قدرة VLMs على فهم النفي.
تلعب نماذج اللغة المرئية (VLMs) دورًا حاسمًا في المهام متعددة الوسائط، مثل استرجاع الصور ووصف الصور والتشخيص الطبي. الهدف من هذه النماذج هو مواءمة البيانات المرئية مع البيانات اللغوية لتمكين معالجة المعلومات بشكل أكثر كفاءة. ومع ذلك، لا تزال VLMs الحالية تواجه تحديات كبيرة في فهم النفي.
يعد النفي أمرًا بالغ الأهمية في العديد من التطبيقات، مثل التمييز بين "غرفة بدون نوافذ" و"غرفة بها نوافذ". على الرغم من التقدم الكبير في VLMs، فإن أداء النماذج الحالية ينخفض بشكل ملحوظ عند التعامل مع البيانات السلبية. هذا القيد مهم بشكل خاص في المناطق عالية الخطورة مثل المراقبة الأمنية والرعاية الصحية.
تستخدم VLMs الموجودة، مثل CLIP، مساحة تضمين مشتركة لمحاذاة التمثيلات المرئية والنصية. على الرغم من أن هذه النماذج تؤدي أداءً جيدًا في مهام مثل الاسترجاع متعدد الوسائط والتعليق على الصور، إلا أنها تفشل عند التعامل مع الجمل السلبية. جذر هذه المشكلة هو التحيز في بيانات ما قبل التدريب، والتي تتكون في المقام الأول من أمثلة إيجابية، مما يجعل النموذج يتعامل مع البيانات السلبية والإيجابية كمرادفات. ولذلك، فإن المعايير الحالية، مثل CREPE وCC-Neg، تستخدم أمثلة قالبية بسيطة لا يمكنها أن تعكس حقًا ثراء وعمق النفي في اللغة الطبيعية. وهذا يجعل VLMs تواجه تحديات كبيرة عند تنفيذ تطبيقات دقيقة لفهم اللغة، مثل الاستعلام عن الحالات المعقدة في قواعد بيانات التصوير الطبي.
ولمعالجة هذه المشكلات، اقترح باحثون من معهد ماساتشوستس للتكنولوجيا وجوجل ديب مايند وجامعة أكسفورد إطار عمل NegBench لتقييم وتحسين قدرة VLMs على فهم النفي. يقوم الإطار بتقييم مهمتين أساسيتين: الاسترجاع والنفي (Retrieval-Neg)، الذي يختبر قدرة النموذج على استرجاع الصور بناءً على الأوصاف الإيجابية والسلبية؛ وأسئلة الاختيار المتعدد والنفي (MCQ-Neg)، التي تقيم أداء النموذج على أساس دقيق فهم. يستخدم NegBench مجموعات بيانات تركيبية كبيرة، مثل CC12M-NegCap وCC12M-NegMCQ، التي تحتوي على ملايين العناوين التي تغطي سيناريوهات سلبية غنية لتحسين تدريب النماذج وتقييمها.
من خلال الجمع بين مجموعات البيانات الحقيقية والتركيبية، يتغلب NegBench بشكل فعال على قيود النماذج الحالية ويحسن بشكل كبير أداء النموذج وقدرات التعميم. أظهر النموذج المضبوط تحسينات كبيرة في كل من مهام الاسترجاع والفهم، خاصة عند التعامل مع الاستعلامات السلبية، حيث زاد استدعاء النموذج بنسبة 10%. وفي المهام ذات الاختيار المتعدد، تحسنت الدقة بنسبة تصل إلى 40%، مما أظهر قدرة معززة إلى حد كبير على التمييز بين العناوين الإيجابية والسلبية الدقيقة.
يسد اقتراح NegBench الفجوة الرئيسية في VLMs في فهم النفي ويمهد الطريق لبناء أنظمة ذكاء اصطناعي أكثر قوة، وهو أمر مهم بشكل خاص في المجالات الرئيسية مثل التشخيص الطبي واسترجاع المحتوى الدلالي.
الورقة: https://arxiv.org/abs/2501.09425
الكود: https://github.com/m1k2zoo/negbench
تسليط الضوء على:
يكشف الباحثون أن أوجه القصور في نماذج اللغة المرئية في فهم النفي تنبع بشكل رئيسي من التحيزات في بيانات التدريب.
يعمل إطار عمل NegBench على تحسين أداء النموذج بشكل كبير في مهام الاسترجاع والفهم من خلال تقديم أمثلة سلبية غنية.
عندما يتعامل النموذج المضبوط بدقة مع الاستعلامات السلبية، يتم تحسين معدلات الدقة والاستدعاء بشكل كبير، مما يعزز تقدم أنظمة الذكاء الاصطناعي.
يوفر ظهور إطار عمل NegBench حلاً فعالاً لمشكلة نماذج اللغة المرئية في فهم النفي، وهو ذو أهمية كبيرة في تحسين أداء النموذج وتعزيز تطوير الذكاء الاصطناعي، ويستحق المزيد من البحث والتطبيق.