أظهر أحدث نموذج مفتوح المصدر RWKV-CLIP من Green Deep Learning أداءً قويًا في مجال تعلم تمثيل اللغة المرئية من خلال تصميمه المبتكر الذي يدمج بنية Transformer وRNN. يحل هذا النموذج بشكل فعال مشكلة البيانات المزعجة ويحسن بشكل كبير من قوة النموذج وأداء المهام النهائية من خلال الجمع بذكاء بين بنية البرج المزدوج، والخلط المكاني ووحدات خلط القنوات، وإطار عمل متنوع لتوليد الوصف. لقد حققت تقدمًا كبيرًا في مطابقة الصور والنصوص وفهمها، مما يوفر اتجاهًا جديدًا للبحث وتطبيق نماذج اللغة المرئية.
قام Gelingshentong بإصدار نموذج RWKV-CLIP مفتوح المصدر، وهو عبارة عن متعلم لتمثيل اللغة المرئية يجمع بين مزايا Transformer وRNN. يعمل النموذج على تحسين الأداء بشكل كبير في المهام المرئية واللغوية من خلال توسيع مجموعة البيانات باستخدام أزواج الصور والنص التي تم الحصول عليها من مواقع الويب من خلال مهام التدريب المسبق للصور والنص.
لمعالجة مشكلة البيانات المزعجة وتحسين جودة البيانات، قدم فريق البحث إطارًا متنوعًا لتوليد الوصف الذي يستفيد من نماذج اللغة الكبيرة (LLMs) لتجميع المحتوى وتحسينه من النص المستند إلى الويب والعناوين الفرعية المركبة والعلامات المكتشفة.
يعتمد نموذج RWKV-CLIP على بنية البرج المزدوج، حيث يدمج التدريب المتوازي الفعال للمحول والاستدلال الفعال لـ RNN. يتم تكديس النموذج بواسطة وحدات مزج مكاني ومزج قنوات متعددة، مما يتيح معالجة متعمقة للصور المدخلة والنصوص. في مرحلة الخلط المكاني، يستخدم النموذج آلية الانتباه لإجراء حساب التعقيد الخطي العالمي وتعزيز تفاعل الميزات على مستوى القناة. تعمل مرحلة مزج القناة على تحسين تمثيل الميزة بشكل أكبر. فيما يتعلق بتعزيز المدخلات، يعمل نموذج RWKV-CLIP على تعزيز قوة النموذج عن طريق الاختيار العشوائي للنص الأصلي أو الترجمات الاصطناعية أو الأوصاف التي تم إنشاؤها كمدخل نص.
تظهر النتائج التجريبية أن RWKV-CLIP يحقق أداءً متطورًا في العديد من المهام النهائية، بما في ذلك الكشف الخطي، وتصنيف اللقطة الصفرية، واسترجاع نص الصورة بدون لقطة. بالمقارنة مع النموذج الأساسي، يحقق RWKV-CLIP تحسينات كبيرة في الأداء.
يوضح التحليل متعدد الوسائط لنموذج RWKV-CLIP أن تمثيلاته المستفادة تظهر تمييزًا أكثر وضوحًا ضمن نفس الطريقة وتظهر مسافات أقرب في مساحة طريقة نص الصورة، مما يشير إلى أداء محاذاة أفضل للطريقة المتقاطعة.
عنوان النموذج: https://wisemodel.cn/models/deepglint/RWKV-CLIP
بشكل عام، يُظهر نموذج RWKV-CLIP إمكانات كبيرة في مجال اللغة المرئية، كما يوفر مصدره المفتوح أيضًا موارد قيمة للأبحاث ذات الصلة. يمكن للمطورين المهتمين زيارة الرابط المقدم لتنزيل النموذج وإجراء المزيد من البحث والتطبيق.