يحتوي هذا المستودع على مجموعة شاملة من أهم الأوراق المتعلقة بالتدريب المسبق المتباين للرؤية واللغة والسمع. يتم تنظيم الأوراق بشكل قاطع، وفرزها حسب سنة وشهر النشر.
يحتوي الجدول التالي على قائمة بالأوراق التي ترتبط مباشرة بـ CLIP، أو التي توسع CLIP بطريقة ما، مثل تحسين عملية التدريب، أو عن طريق تغيير عملية تصفية البيانات. يتميز كل إدخال في هذا الجدول بأن التعلم المتباين هو الهدف الأساسي للتدريب المسبق، على عكس النماذج التي تستخدم أهداف ما قبل التدريب المتعددة، والجمع بين التعلم المتباين وأهداف التدريب المسبق الأخرى ونمذجة اللغة المقنعة (MLM).
نموذج | سنة | شهر | عنوان الورقة | تطوير الرواية | أركسيف | جيثب | مفتوح المصدر | رخصة | البطاقة النموذجية | التكامل OpenCLIP |
---|---|---|---|---|---|---|---|---|---|---|
مقطع | 2021 | 2 | تعلم النماذج المرئية القابلة للتحويل من خلال الإشراف على اللغة الطبيعية | التدريب المسبق على اللغة التباينية المبسطة | ✔️ | رخصة | البطاقة النموذجية | ✔️ | ||
محاذاة | 2021 | 2 | توسيع نطاق التعلم البصري وتمثيل الرؤية واللغة من خلال الإشراف على النص الصاخب | قم بالتوسيع من التسميات التوضيحية إلى النص البديل الصاخب لتجنب التصفية والمعالجة اللاحقة الباهظة الثمن | ✔️ | البطاقة النموذجية | ||||
كلوب | 2021 | 10 | CLOOB: شبكات Hopfield الحديثة مع InfoLOOB تتفوق على CLIP | تجنب تشبع هدف InfoNCE | ✔️ | رخصة | ||||
دي كليب | 2021 | 10 | الإشراف موجود في كل مكان: نموذج التدريب المسبق للغة والصورة المتباينة بكفاءة البيانات | كفاءة البيانات من خلال الإشراف | ✔️ | رخصة | ||||
فيليب | 2021 | 11 | FILIP: التدريب المسبق على اللغة التفاعلية الدقيقة والصور | يضيف أقصى قدر من التشابه بين الميزات المرئية والنصية من أجل محاذاة دلالية فعالة ودقيقة | ✔️ | |||||
ديفيليب | 2022 | 3 | إضفاء الطابع الديمقراطي على التدريب المسبق على اللغة والصورة المتباينة: معيار CLIP للبيانات والنموذج والإشراف | يجمع بين DeCLIP وFILIP | ✔️ | رخصة | ||||
PyramidCLIP | 2022 | 4 | PyramidCLIP: محاذاة الميزات الهرمية للتدريب المسبق لنموذج لغة الرؤية | افترض أن الصورة والبيانات الوصفية متطابقة بشكل فردي | ||||||
كلايت | 2022 | 4 | K-LITE: تعلم النماذج المرئية القابلة للتحويل بالمعرفة الخارجية | زيادة نص التسمية التوضيحية بالمعرفة الخارجية | ✔️ | رخصة | ||||
CyCLIP | 2022 | 5 | CyCLIP: التدريب المسبق على اللغة التباينية الدورية | إضفاء الطابع الرسمي على الاتساق الهندسي في مساحات الصور والنص وتحسينه | ✔️ | رخصة | ||||
نقف | 2022 | 12 | التدريب المسبق على تحجيم اللغة والصورة عبر الإخفاء | يؤدي إخفاء الصور قبل التشفير إلى تحسين مقايضة السرعة والدقة لـ CLIP | ✔️ | رخصة | ||||
أوبنكليب | 2022 | 12 | قوانين القياس القابلة للتكرار لتعلم الصور اللغوية المتباينة | تنفيذ مفتوح المصدر لـ CLIP | ✔️ | رخصة | البطاقة النموذجية | ✔️ | ||
إيفا-كليب | 2023 | 3 | EVA-CLIP: تقنيات التدريب المحسنة لـ CLIP على نطاق واسع | تحسين تعلم التمثيل والتحسين والزيادة من أجل تدريب أسرع | ✔️ | البطاقة النموذجية | ✔️ | |||
سيجليب | 2023 | 3 | فقدان السيني لصورة اللغة قبل التدريب | يسمح فقدان السيني بفصل الخسارة عن حجم الدفعة | ✔️ | رخصة | ✔️ | |||
كليبا | 2023 | 5 | قانون القياس العكسي لتدريب CLIP | إن التعرف على العلاقة بين حجم جهاز التشفير وأطوال تسلسل إدخال التدريب يؤدي إلى تدريب أكثر كفاءة | ✔️ | رخصة | ✔️ | |||
ميتا كليب | 2023 | 9 | إزالة الغموض عن بيانات CLIP | دراسة صارمة للكشف عن عملية تنظيم البيانات في CLIP | ✔️ | رخصة | ✔️ | |||
DFN | 2023 | 11 | شبكات تصفية البيانات | يمكن استخدام نموذج تم تدريبه على بيانات عالية الجودة لتصفية البيانات الضخمة عبر الإنترنت المستخدمة لتدريب نموذج CLIP النهائي | ✔️ | رخصة | البطاقة النموذجية | ✔️ |
النماذج التي تعمل على توسيع CLIP عن طريق إضافة أهداف تدريب مسبق إضافية، مثل نمذجة اللغة المقنعة (MLM).
المختصرات المستخدمة في الجدول أدناه هي كما يلي:
تستخدم جميع النماذج في هذا الجدول أيضًا التعلم المتباين بأسلوب CLIP كهدف للتدريب المسبق.
نموذج | سنة | شهر | عنوان الورقة | تقنيات ما قبل التدريب | أركسيف | جيثب | مفتوح المصدر | رخصة |
---|---|---|---|---|---|---|---|---|
ينزلق | 2021 | 12 | SLIP: الإشراف الذاتي يلبي التدريب المسبق على اللغة والصورة | محطة الفضاء الدولية | ✔️ | رخصة | ||
فلافا | 2021 | 12 | FLAVA: نموذج أساسي لمواءمة اللغة والرؤية | إي تي إم + ط ط ط + ميم + الامتيازات والرهونات البحرية | ✔️ | رخصة | ||
نقطة | 2022 | 1 | BLIP: التدريب المسبق على اللغة والصورة من أجل فهم وإنشاء لغة الرؤية الموحدة | آي تي إم + إل إم | ✔️ | رخصة | ||
MaskCLIP | 2022 | 8 | MaskCLIP: يعمل التقطير الذاتي المقنع على تطوير التدريب المسبق على اللغة والصور المتباينة | الامتيازات + مسد | ||||
فيتشا | 2022 | 8 | التدريب المسبق الفعال على لغة الرؤية مع المفاهيم المرئية والمحاذاة الهرمية | ح-ITC+ITM+MMM+MIM+MLM | ✔️ | رخصة | ||
ريلس | 2023 | 1 | RILS: إعادة البناء البصري المقنع في الفضاء الدلالي اللغوي | ميم | ||||
MobileCLIP | 2023 | 11 | MobileCLIP: نماذج الصور والنصوص السريعة من خلال التدريب المعزز متعدد الوسائط | معدل وفيات الأمهات | ✔️ | رخصة |
يحتوي هذا القسم على مجموعات من الأوراق المتعلقة بالتدريب المسبق المتباين لطرائق أخرى، مثل البيانات الصوتية والفيديو والبيانات ثلاثية الأبعاد.
النماذج التي تستخدم التعلم المتباين بنمط CLIP كهدف تدريب مسبق للصوت.
نموذج | سنة | شهر | عنوان الورقة | الطرائق | أركسيف | جيثب | مفتوح المصدر | رخصة |
---|---|---|---|---|---|---|---|---|
مقطع صوتي | 2021 | 6 | AudioCLIP: تمديد المقطع إلى الصورة والنص والصوت | صوت+صورة+نص | ✔️ | رخصة | ||
WAV2CLIP | 2021 | 10 | WAV2CLIP: تعلم التمثيلات الصوتية القوية من CLIP | صوت+صورة+نص | ✔️ | رخصة | ||
SpeechCLIP | 2022 | 10 | SpeechCLIP: دمج الكلام مع الرؤية المدربة مسبقًا ونموذج اللغة | كلام+صورة+نص | ✔️ | رخصة | ||
التصفيق | 2023 | 4 | التدريب المسبق على اللغة والصوت المتباين على نطاق واسع مع دمج الميزات وزيادة الكلمات الرئيسية إلى التسمية التوضيحية | الصوت + النص | ✔️ | رخصة | ||
CLVP | 2023 | 5 | تركيب أفضل للكلام من خلال القياس | الكلام + النص | ✔️ | رخصة |
النماذج التي توسع CLIP إلى مجال الفيديو.
نموذج | سنة | شهر | عنوان الورقة | أركسيف | جيثب | مفتوح المصدر | رخصة |
---|---|---|---|---|---|---|---|
CLIP4Clip | 2021 | 4 | CLIP4Clip: دراسة تجريبية لـ CLIP لاسترجاع مقاطع الفيديو من النهاية إلى النهاية | ✔️ | رخصة | ||
فيديو كليب | 2021 | 9 | VideoCLIP: تدريب مسبق متباين لفهم نص الفيديو بدون لقطة | ✔️ | رخصة | ||
X-CLIP | 2022 | 7 | X-CLIP: التعلم المتباين متعدد الحبيبات الشامل لاسترجاع نصوص الفيديو | ✔️ | رخصة |
النماذج التي توسع CLIP إلى المجال ثلاثي الأبعاد.
نموذج | سنة | شهر | عنوان الورقة | الطرائق | أركسيف | جيثب | مفتوح المصدر | رخصة |
---|---|---|---|---|---|---|---|---|
PointCLIP | 2021 | 12 | PointCLIP: فهم نقطة السحابة بواسطة CLIP | نقطة سحابة + نص | ✔️ | |||
CLIP2Point | 2022 | 10 | CLIP2Point: انقل CLIP إلى Point Cloud Classification من خلال التدريب المسبق لعمق الصورة | نقطة سحابة + نص | ✔️ | |||
PointCLIPV2 | 2022 | 11 | PointCLIP V2: مطالبة CLIP وGPT بالتعلم القوي ثلاثي الأبعاد في العالم المفتوح | نقطة سحابة + نص | ||||
كليب2 | 2023 | 3 | CLIP2: التدريب المسبق على اللغة المتباينة والصورة والنقطة من بيانات سحابة النقاط الواقعية | نقطة سحابة + صورة + نص |
المساهمات هي موضع ترحيب! تقديم طلب سحب لإضافة ورقة جديدة، أو لتحديث ورقة موجودة. يرجى اتباع شكل الأوراق الموجودة في الجدول؟