قائمة منسقة بمجموعات البيانات والنماذج والأوراق والمستودعات مفتوحة المصدر لضبط التعليمات.
باتباع Longpre et al.، قمنا بإدراج جميع مجموعات بيانات ضبط التعليمات الموجودة والمعدلة من مهام البرمجة اللغوية العصبية التقليدية.
يطلق | مجموعات البيانات | عدد المهام | عدد الحالات | اسم_النموذج | قاعدة | Model_Size |
---|---|---|---|---|---|---|
2020-05 | UnifiedQA | 46 | 750 ألف | UnifiedQA | روبرتا | 110-340 م |
2021-04 | كروس فيت | 159 | 71.م | بارت-كروس فيت | بارت | 140 م |
2021-04 | إنست الطبيعية v1.0 | 61 | 620 ك | الجنرال بارت | بارت | 140 م |
2021-09 | فلان 2021 | 62 | 4.4 م | فلان لامدا | لامدا | 137 ب |
2021-10 | ص3 | 62 | 12 م | إلى، إلى+، إلى++ | T5-LM | 3-11ب |
2021-10 | ميتالكل | 142 | 3.5 م | ميتالكل | جي بي تي-2 | 770 م |
2021-11 | exMix | 107 | 500 ك | تحويلة5 | T5 | 220 م-11 ب |
2022-04 | مؤسسة فائقة الطبيعية. | 1613 | 5 م | المعارف التقليدية-إرشاد | T5-LM، mT5 | 17-13 ب |
2022-10 | جي إل إم | 77 | 12 م | جي إل إم-130ب | جي إل إم | 130 ب |
2022-10 | فلان 2022 | 1836 | 15 م | فلان-T5، فلان-بالم | T5-LM، بالم | 10 م - 540 ب |
2022-11 | xP3 | 71 | 81 م | بلومز، متو | بلوم، mT5 | 13-176ب |
2022-12 | مؤسسة غير طبيعية. | 117 | 64 ك | T5-LM-أونات. انست. | T5-LM | 11 ب |
يطلق | اسم_النموذج | قاعدة | Model_Size | مجموعات البيانات | عدد الحالات | لغة |
---|---|---|---|---|---|---|
2022-12 | GPT-3 التثبيت الذاتي. | جي بي تي-3 | 175 ب | تعليمات ذاتية | 82 ك | أون |
2023-03-03 | الألبكة | لاما | 7 ب | alpaca_data | 52 ك | أون |
2023-03-19 | الألبكة لورا | لاما | 7 ب 13 ب 30 ب | alpaca_data、alpaca_data_cleaned | 52 ك | أون |
2023-03-23 | الصينية فيكونا | لاما | 7 ب 13 ب | حسناء، مجموعة بيانات Guanaco | 1 م | ز |
2023-03-24 | الألبكة-CoT | لاما | 7 ب | dataset | ---- | أون ز |
2023-03-25 | دوللي | دوللي | 6 ب | alpaca_data | 52 ك | أون |
2023-03-25 | جواناكو | لاما | 7 ب | GuanacoDataset | 534 ك | أون ز جا دي |
2023-03-28 | الصينية-اللاما-الألبكة | لاما | 7 ب | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、Self-Instruct | 2 م | ز |
2023-03-29 | com.ColossalChat | لاما | 7 ب 13 ب | تعليماتWild | 104 ك | أون ز |
2023-03-31 | لوتو | LLaMA ChatGLM | 7 ب 6 ب | trans_chinese_alpaca_data | 52 ألف | ز |
2023-03-31 | المخ-لورا-الألبكة | سيريبراس-GPT | 2.7 ب | AlpacaDataCleaned | 52 ألف | أون |
معظم مجموعات البيانات الموجودة باللغة الإنجليزية. ومع ذلك، فإن معظم سكان العالم يعانون من نقص الخدمات من حيث توافر البيانات الخاصة بلغاتهم. كيف نضمن أن الجميع في جميع أنحاء العالم قادرون على الاستفادة من الذكاء الاصطناعي التوليدي؟ لقد قمنا بتطوير أداة ترجمة مباشرة ومفتوحة المصدر تعتمد على Helsinki-NLP، وهي قادرة على ترجمة مجموعات البيانات الإنجليزية إلى أكثر من 100 لغة دون أي تكلفة. على الرغم من أن مجموعات البيانات المترجمة هذه قد تحتوي على بعض التشويش، إلا أنها تعمل كبديل عملي للبيانات المكلفة وعالية الجودة. انظر أدناه.
python translator.py model_name source_data_path
python translator.py Helsinki-NLP/opus-mt-en-zh alpaca_data.json
تم تصميم أداتنا للعمل مع بيانات الألبكة ونموذج Helsinki-NLP/opus-mt-en-zh. تؤدي مجموعات البيانات المختلفة أو نماذج هلسنكي-البرمجة اللغوية العصبية إلى نتائج مختلفة. ونظرًا لقيود النموذج، وتقييد إمكانيات النموذج، فقد لا تكون جودة الترجمة مثالية دائمًا. على سبيل المثال، لاحظنا حالات من الكلمات المتكررة في الترجمات من الإنجليزية إلى الصينية، مما قادنا إلى تطوير "process.py" لإزالة المطالبات المترجمة التي تحتوي على سلاسل من أي طول تظهر ثلاث مرات متتالية. نحن نقدم النسخة النهائية في "translated_alpaca_data.json".
python process.py unprocessed_data_path
python process.py translated_data.json
# قد يكون لنموذج هلسنكي-NLP حد أقصى لطول جملة الإدخال. لقد تجاهلنا المطالبات التي تتجاوز الحد الأقصى قبل ترجمتها.
لقد قمنا بمراجعة الأوراق البحثية في هذا المجال على نطاق واسع وأدرجنا أهمها أدناه:
نماذج اللغة المتقنة هي متعلمون بلا فرصة 2021.9
يتيح التدريب الفوري على المهام المتعددة إمكانية تعميم المهام بدون إطلاق النار 2021.10
تدريب النماذج اللغوية على اتباع التعليمات مع ردود الفعل البشرية 2022.3
تعليمات طبيعية فائقة: التعميم عبر التعليمات التعريفية لأكثر من 1600 مهمة في البرمجة اللغوية العصبية 2022.4
تعميم المهام المشتركة غير الخاضعة للرقابة من خلال تعزيز الاسترجاع 2022.4
تحريض التعليمات: من أمثلة قليلة إلى أوصاف مهام اللغة الطبيعية 2022.5
تحجيم التعليمات-نماذج اللغة المضبوطة 2022.10
تخمين التعليمات! التعلم المقلوب يجعل نماذج اللغة أقوى للمتعلمين بدون فرصة 2022.10
تعليمات غير طبيعية: ضبط نماذج اللغة بدون عمالة بشرية (تقريبًا) 2022.12
تحسين تعميم المهام المشتركة لنماذج الجدول إلى النص الموحدة مع تكوينات المهام التركيبية 2022.12
التعليمات الذاتية: محاذاة نموذج اللغة مع التعليمات التي يتم إنشاؤها ذاتيًا 2022.12
MultiInstruct: تحسين التعلم الصفري متعدد الوسائط من خلال ضبط التعليمات 2022.12
مجموعة Flan: تصميم البيانات وطرق ضبط التعليمات الفعالة 2023.1
التعلم في سياق التعليمات 2023.2
بالإضافة إلى ذلك، قدمنا قائمة بالمستودعات ذات الصلة لمزيد من الرجوع إليها.
تعليم رائع للتعلم
مجموعة بيانات التعليمات الرائعة
ICL_PaperList
التعلم السريع في السياق
تفكير LM
LLM-الاستدلال-أوراق
أوراق سلسلة الأفكار
OpenICL