2017 | محول | الاهتمام هو كل ما تحتاجه | كان تركيز البحث الأصلي على مهام الترجمة. | TensorFlow + مقالة |
2018 | جي بي تي | تحسين فهم اللغة عن طريق التدريب المسبق التوليدي | أول نموذج محول مُدرب مسبقًا، يُستخدم لضبط مهام البرمجة اللغوية العصبية المختلفة والحصول على أحدث النتائج | |
2018 | بيرت | بيرت: التدريب المسبق للمحولات العميقة ثنائية الاتجاه لفهم اللغة | نموذج آخر كبير تم تدريبه مسبقًا، وهو مصمم لإنتاج ملخصات أفضل للجمل | باي تورش |
2019 | جي بي تي-2 | نماذج اللغة هي متعلمون متعددو المهام غير خاضعين للرقابة | نسخة محسنة (وأكبر) من GPT لم يتم إصدارها علنًا على الفور بسبب مخاوف أخلاقية | |
2019 | ديستيلبيرت - بيرت المقطر | DistilBERT، نسخة مقطرة من BERT: أصغر وأسرع وأرخص وأخف وزنًا | نسخة مقطرة من BERT أسرع بنسبة 60%، وأخف وزنًا في الذاكرة بنسبة 40%، ولا تزال تحتفظ بنسبة 97% من أداء BERT | |
2019 | بارت | بارت: تقليل الضوضاء من التسلسل إلى التسلسل قبل التدريب على توليد اللغة الطبيعية والترجمة والفهم | نماذج كبيرة مُدربة مسبقًا تستخدم نفس بنية نموذج Transformer الأصلي. | |
2019 | T5 | استكشاف حدود نقل التعلم باستخدام محول النص إلى النص الموحد | نماذج كبيرة مُدربة مسبقًا تستخدم نفس بنية نموذج Transformer الأصلي. | |
2019 | ألبرت | ألبرت: بيرت لايت لتعلم تمثيلات اللغة تحت الإشراف الذاتي | | |
2019 | RoBERTa - نهج تدريب مسبق محسّن بقوة لـ BERT | روبرتا: نهج التدريب المسبق المحسن بقوة لبيرت | | |
2019 | كنترول | CTRL: نموذج لغة المحولات الشرطية للتوليد الذي يمكن التحكم فيه | | |
2019 | محول XL | Transformer-XL: نماذج اللغة اليقظة خارج سياق ثابت الطول | يعتمد منهجية التكرار على الحالة السابقة إلى جانب التشفير الموضعي النسبي الذي يتيح التبعيات طويلة المدى | |
2019 | ديابلو جي بي تي | DialoGPT: تدريب مسبق توليدي واسع النطاق لتوليد الاستجابة للمحادثة | تم التدريب على 147 مليون عملية تبادل شبيهة بالمحادثة مستخرجة من سلاسل تعليقات Reddit خلال فترة تمتد من 2005 حتى 2017 | باي تورش |
2019 | إيرني | إرني: تمثيل اللغة المحسن مع الكيانات الإعلامية | في هذه الورقة، نستخدم كلا من المجموعات النصية واسعة النطاق ورياض الأطفال لتدريب نموذج تمثيل اللغة المحسن (ERNIE)، والذي يمكنه الاستفادة الكاملة من المعلومات المعجمية والنحوية والمعرفية في وقت واحد. | |
2020 | جي بي تي-3 | نماذج اللغة هي عدد قليل من المتعلمين | إصدار أكبر من GPT-2 قادر على الأداء الجيد في مجموعة متنوعة من المهام دون الحاجة إلى الضبط الدقيق (يسمى التعلم الصفري) | |
2020 | إلكترا | إلكترا: تشفير النصوص قبل التدريب كأدوات تمييز وليس كمولدات | | |
2020 | mBART | التدريب المسبق على تقليل الضوضاء متعدد اللغات للترجمة الآلية العصبية | | |
2021 | CLIP (التدريب المسبق على اللغة المقارنة والصورة) | تعلم النماذج المرئية القابلة للتحويل من خلال الإشراف على اللغة الطبيعية | CLIP عبارة عن شبكة عصبية تم تدريبها على مجموعة متنوعة من أزواج (الصورة والنص). يمكن توجيهها باللغة الطبيعية للتنبؤ بالمقتطف النصي الأكثر صلة، مع إعطاء صورة، دون تحسين المهمة بشكل مباشر، على غرار إمكانيات اللقطة الصفرية لـ GPT-2 و3. | باي تورش |
2021 | DALL-E | إنشاء تحويل النص إلى صورة بدون لقطة | | باي تورش |
2021 | غوفر | توسيع نطاق نماذج اللغة: الأساليب والتحليلات والرؤى من تدريب غوفر | | |
2021 | محول القرار | محول القرار: تعزيز التعلم من خلال نمذجة التسلسل | بنية تطرح مشكلة RL كنمذجة تسلسل مشروط. | باي تورش |
2021 | جلام (نموذج اللغة العام) | GLaM: التوسع الفعال لنماذج اللغة مع مزيج من الخبراء | في هذه الورقة، نقترح ونطور مجموعة من النماذج اللغوية تسمى GLaM (نموذج اللغة العام)، والتي تستخدم بنية مزيج من الخبراء قليلة النشاط لتوسيع نطاق سعة النموذج مع تكبد أيضًا تكلفة تدريب أقل بكثير مقارنة بالمتغيرات الكثيفة. | |
2022 | chatGPT/InstructGPT | تدريب النماذج اللغوية على اتباع التعليمات مع ردود الفعل البشرية | يعد نموذج اللغة المدرب هذا أفضل بكثير في متابعة نوايا المستخدم من GPT-3. تم تحسين النموذج (ضبطه بدقة) باستخدام التعلم المعزز بالملاحظات البشرية (RLHF) لتحقيق الحوار التحادثي. تم تدريب النموذج باستخدام مجموعة متنوعة من البيانات التي كتبها الأشخاص لتحقيق استجابات تبدو شبيهة بالبشر. | :-: |
2022 | شينشيلا | تدريب نماذج اللغات الكبيرة للحوسبة المثلى | يستخدم نفس ميزانية الحوسبة مثل Gopher ولكن مع 70B من المعلمات و4x المزيد من البيانات. | :-: |
2022 | LaMDA - نماذج اللغة لتطبيقات الحوار | لامدا | إنها عائلة من نماذج اللغة العصبية القائمة على المحولات والمتخصصة في الحوار | |
2022 | DQ-بارت | DQ-BART: نموذج تسلسل إلى تسلسل فعال عبر التقطير المشترك والتكميم | يقترح تقطير النموذج وتقديره بشكل مشترك، حيث يتم نقل المعرفة من نموذج المعلم كامل الدقة إلى نموذج الطالب منخفض الدقة الكمي والمقطر. | |
2022 | فلامنغو | فلامنغو: نموذج لغة بصرية للتعلم قليلًا | يعد بناء النماذج التي يمكن تكييفها بسرعة مع المهام الجديدة باستخدام عدد قليل من الأمثلة المشروحة تحديًا مفتوحًا لأبحاث التعلم الآلي متعدد الوسائط. نقدم لكم Flamingo، وهي عائلة من نماذج اللغة المرئية (VLM) تتمتع بهذه القدرة. | |
2022 | جاتو | وكيل عام | مستوحاة من التقدم المحرز في نمذجة اللغة واسعة النطاق، فإننا نطبق نهجًا مشابهًا لبناء وكيل عام واحد خارج نطاق مخرجات النص. يعمل الوكيل، الذي نشير إليه باسم Gato، كسياسة عامة متعددة الوسائط ومتعددة المهام ومتعددة التجسيد. | |
2022 | جودل: تدريب مسبق واسع النطاق على الحوار الموجه نحو الأهداف | جودل: تدريب مسبق واسع النطاق على الحوار الموجه نحو الأهداف | على النقيض من النماذج السابقة مثل DialoGPT، يستفيد GODEL من مرحلة جديدة من التدريب المسبق المصمم لدعم تكييف GODEL بشكل أفضل مع مجموعة واسعة من مهام الحوار النهائية التي تتطلب معلومات خارج المحادثة الحالية (على سبيل المثال، قاعدة بيانات أو مستند) من أجل إنتاج ردود فعل جيدة. | باي تورش |
2023 | جي بي تي-4 | التقرير الفني لـ GPT-4 | يقبل النموذج الآن مدخلات متعددة الوسائط: الصور والنص | :-: |
2023 | بلومبرج جي بي تي | BloombergGPT: نموذج لغوي كبير للتمويل | LLM متخصص في المجال المالي وتدرب على مصادر بيانات بلومبرج الواسعة | |
2023 | يزدهر | بلوم: نموذج لغة متعدد اللغات مفتوح الوصول بمعلمة 176B | BLOOM (BigScience Large Open-Science Multilingual Language Model) هو نموذج لغة محول لوحدة فك التشفير فقط تم تدريبه على مجموعة ROOTS، وهي مجموعة بيانات تضم مئات المصادر في 46 لغة طبيعية و13 لغة برمجة (59 لغة في المجموع) | |
2023 | اللاما 2 | اللاما 2: نماذج الدردشة الأساسية والمضبوطة بشكل دقيق | | بايتورتش #1 بايتورتش #2 |
2023 | كلود | كلود | يستطيع كلود تحليل 75 ألف كلمة (100 ألف رمز). يمكن لـ GPT4 تنفيذ 32.7 ألف رمز فقط. | |
2023 | SelfCheckGPT | SelfCheckGPT: اكتشاف هلوسة الصندوق الأسود بدون موارد لنماذج اللغات الكبيرة التوليدية | أسلوب بسيط قائم على أخذ العينات يمكن استخدامه للتحقق من صحة نماذج الصندوق الأسود بطريقة خالية من الموارد، أي بدون قاعدة بيانات خارجية. | |