سيأخذك محرر Downcodes للتعرف على LLM2CLIP: تقنية مبتكرة تعمل على تحسين أداء نماذج CLIP! باعتباره نموذجًا أساسيًا مهمًا متعدد الوسائط، يؤدي CLIP أداءً جيدًا في مهام مثل استرجاع نص الصورة، ولكنه يعاني من عيوب في معالجة النصوص الطويلة. اقترح باحثون من Microsoft وجامعة Tongji طريقة LLM2CLIP، التي تستخدم بذكاء نماذج اللغة الكبيرة (LLMs) لتعزيز قدرات تعلم التمثيل المرئي لـ CLIP والتغلب على قيود نموذج CLIP الأصلي.
يمكن لـ CLIP، كمحرك بحث، أن يدعم مهام مختلفة مثل التصنيف الصفري والكشف والتجزئة واسترجاع نص الصورة. وفي الوقت نفسه، وباعتباره مستخرجًا للميزات، فهو يهيمن تقريبًا على جميع مهام التمثيل متعدد الوسائط، مثل فهم الصورة، وفهم الفيديو، وتحويل النص إلى صورة أو إنشاء فيديو. تكمن قوة CLIP في قدرته على ربط الصور باللغة الطبيعية والتقاط المعرفة الإنسانية، وذلك بفضل تدريبه على بيانات الويب واسعة النطاق التي تحتوي على أوصاف نصية مفصلة.
ومع ذلك، فإن CLIP لديه بعض القيود في التعامل مع الأوصاف النصية الطويلة والمعقدة. للتغلب على هذه المشكلة، اقترح باحثون من مايكروسوفت وجامعة تونغجي طريقة LLM2CLIP، والتي تهدف إلى تعزيز تعلم التمثيل البصري من خلال دمج نماذج اللغة الكبيرة (LLMs). تحل هذه الطريقة محل برنامج تشفير النص CLIP الأصلي وتستخدم المعرفة الغنية ببرامج LLM لتحسين أداء برنامج التشفير المرئي لـ CLIP. لقد وجدت الأبحاث أن دمج LLMs مباشرة في CLIP يؤدي إلى تدهور الأداء، لذلك يجب معالجة هذا التحدي.
تعمل طريقة LLM2CLIP على تحسين قدرة LLM بشكل كبير على فصل التسميات التوضيحية للصور من خلال تقديم تقنية "ضبط تباين التسميات التوضيحية"، وبالتالي تحقيق تحسينات كبيرة في الأداء.
أجرى الباحثون تجارب ضبط دقيقة باستخدام مجموعات بيانات بأحجام مختلفة، بما في ذلك CC-3M الصغيرة، وCC-3M وCC-12M متوسطة الحجم، وCC-3M، وCC-12M، وYFCC-15M، وRecaption-1B الكبيرة الحجم. . أظهرت النتائج أن النموذج الذي تم تدريبه باستخدام LLM2CLIP يؤدي أداءً أفضل من نماذج CLIP وEVA التقليدية في مهام استرجاع الصورة إلى نص ومن النص إلى الصورة.
من خلال الدمج مع نماذج مثل Lava1.5 للتدريب متعدد الوسائط، كان أداء LLM2CLIP جيدًا في جميع الاختبارات المعيارية تقريبًا، خاصة عند معالجة مهام استرجاع النص الطويلة والقصيرة، مما أدى إلى تحسين أداء نموذج EVA02 السابق بنسبة 16.5%. هذا النهج المبتكر لا يحول CLIP من مجرد معالجة البيانات الإنجليزية إلى نموذج قوي متعدد اللغات فحسب، بل يضع أيضًا الأساس للبحث المستقبلي حول تدريب CLIP.
الموديل: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
الكود: https://github.com/microsoft/LLM2CLIP/
الورقة: https://arxiv.org/abs/2411.04997
لقد جلب ظهور LLM2CLIP اتجاهًا جديدًا لتطوير النماذج متعددة الوسائط، كما أن اختراقاته في معالجة النصوص الطويلة والمهام عبر اللغات تستحق الاهتمام. لمزيد من المعلومات يرجى زيارة الروابط الواردة في المقال. نتطلع إلى ظهور المزيد من التطبيقات المستندة إلى LLM2CLIP في المستقبل!