تعليمات ضبط مجموعات البيانات
جميع مجموعات البيانات المتاحة لضبط تعليمات نماذج اللغات الكبيرة
مجموعات البيانات القياسية الذهبية
- P3: https://github.com/bigscience-workshop/promptsource، https://huggingface.co/datasets/bigscience/P3
- مجموعة من مجموعات البيانات الإنجليزية المطلوبة التي تغطي مجموعة متنوعة من مهام البرمجة اللغوية العصبية
- 2000 نوع موجه لأكثر من 270 مجموعة بيانات
- xP3: https://huggingface.co/datasets/bigscience/xP3mt
- مزيج من 13 مهمة تدريبية بـ 46 لغة مع مطالبات بـ 20 لغة (مترجمة آليًا من الإنجليزية)
- التعليمات الطبيعية الإصدار 2: https://github.com/allenai/natural-instructions
- معيار مكون من 1616 مهمة متنوعة في البرمجة اللغوية العصبية وتعليماتها المكتوبة من قبل الخبراء، والتي تغطي 76 نوعًا مختلفًا من المهام و55 لغة مختلفة.
- مجموعة فلان: https://github.com/google-research/FLAN/tree/main/flan/v2
- مجموعة شاملة من بعض مجموعات البيانات هنا
- 1836 المهام، 15 مليون مثال
- افتح المساعد: https://huggingface.co/datasets/OpenAssistant/oasst1
- مجموعة محادثة بأسلوب مساعد ذات تعليقات بشرية تتكون من 161,443 رسالة موزعة على 66,497 شجرة محادثة، في 35 لغة مختلفة، مشروحة بـ 461,292 تقييم جودة
- ليما: 1K تعليمات عالية الجودة
- https://huggingface.co/datasets/GAIR/lima
- databricks-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
- المعزوفة: https://github.com/google-research-datasets/presto
- 550 ألف محادثة سياقية متعددة اللغات بين البشر والمساعدين الافتراضيين
- BB3x: https://parl.ai/projects/bb3x/
- إرشاد CTG: https://github.com/MichaelZhouwang/InstructCTG
- إطار التوليد المتحكم فيه https://arxiv.org/abs/2304.14293
- كروس فيت: https://github.com/INK-USC/CrossFit
- مصدر المهمة: https://arxiv.org/abs/2301.05948
- اكس ميكس: https://arxiv.org/abs/2111.10952
- InstructEval: https://github.com/declare-lab/instruct-eval
- M3IT: https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2.4 مليون مثيل متعدد الوسائط و400 تعليمات عبر 40 مهمة و80 لغة
- MIMIC-IT: ضبط التعليمات متعددة الوسائط في السياق: https://arxiv.org/abs/2306.05425
- MultiInstruct: https://github.com/VT-NLP/MultiInstruct
- الكولي: https://github.com/princeton-nlp/Collie
- Mind2Web: نحو وكيل عام للويب https://osu-nlp-group.github.io/Mind2Web/
- Android في البرية: مجموعة بيانات واسعة النطاق للتحكم في أجهزة Android: https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK: تقييم نموذج اللغة الدقيق بناءً على مجموعات مهارات المحاذاة https://github.com/kaistAI/FLASK
- سيف-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- هيلبستير: https://huggingface.co/datasets/nvidia/HelpSteer
معيار فضي/تم إنشاؤه باستخدام LM
- التعليمات الذاتية: https://github.com/yizhongw/self-instruct
- تعليمات غير طبيعية: https://github.com/orhonovich/unnatural-instructions
- الألبكة: https://huggingface.co/datasets/tatsu-lab/alpaca
- الألبكة النظيفة: https://github.com/gururise/AlpacaDataCleaned
- كود الألبكة: https://github.com/sahil280114/codealpaca
- الألبكةGPT3.5مخصص: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Customized
- جي بي تي 4 آل: https://github.com/nomic-ai/gpt4all
- GPT4All-pruned: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- شيرGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- جي بي تيتشر: https://github.com/teknium1/GPTeacher
- الجمل ؟: https://www.camel-ai.org/
- مجموعة مقارنة ChatGPT البشرية: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- التعليمات البرية: https://github.com/XueFuzhao/InstructionWild
- ضبط التعليمات باستخدام GPT-4: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- جواناكو: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- مجموعة بيانات LongForm: https://github.com/akoksal/LongForm/tree/main/dataset
- إنشاء تعليمات LLM لمجموعة متنوعة من عينات المجموعة (27,739 تعليمات وأزواج نصية طويلة)
- الترا تشات: https://huggingface.co/datasets/stingning/ultrachat
- تعليمات LLaVA المرئية 150 كيلو: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- بيانات متابعة التعليمات متعددة الوسائط التي تم إنشاؤها بواسطة GPT
- أدوات GPT4: https://github.com/StevenGrove/GPT4Tools
- بيانات التعليمات لإجراء استدعاءات API لعدة نماذج متعددة الوسائط
- تعليمات لاميني: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 2.58 مليون زوج من التعليمات والاستجابات
- Evol-Instruct 70 كيلو: https://github.com/nlpxucan/WizardLM
- الديناصور: https://dynosaur-it.github.io/
- مزرعة الألبكة: https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- ايروبوروس: https://github.com/jondurbin/airoboros
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat: مجموعة من 570 ألف تفاعل حقيقي للمستخدم مع ChatGPT https://wildchat.allen.ai/
- مجموعة التعليقات: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
مجموعات بيانات التفضيلات (يمكن استخدامها لتدريب نموذج المكافأة)
- سمو-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- يحتوي على تقييمات بشرية لضرر وفائدة مخرجات النموذج. تحتوي مجموعة البيانات على ما يقرب من 160 ألف مثال تم تقييمه بواسطة الإنسان، حيث يتكون كل مثال في مجموعة البيانات هذه من زوج من الاستجابات من برنامج الدردشة الآلي، ويفضل البشر إحداهما.
- OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- يتضمن إجمالي حوالي 20 ألف مقارنة حيث يشتمل كل مثال على سؤال وزوج من الإجابات النموذجية وبيانات التعريف. يتم تصنيف الإجابات من قبل البشر مع درجة التفضيل.
- تلخيص OpenAI: https://huggingface.co/datasets/openai/summarize_from_feedback
- يحتوي على حوالي 93 ألف مثال، يتكون كل مثال من تعليقات البشر فيما يتعلق بالتلخيصات التي تم إنشاؤها بواسطة النموذج. اختار المقيمون البشريون الملخص المتميز من بين خيارين.
- مجموعة بيانات التفضيلات البشرية في جامعة ستانفورد (SHP): https://huggingface.co/datasets/stanfordnlp/SHP
- 385 ألف تفضيل بشري جماعي على الإجابات على الأسئلة/التعليمات في 18 مجالًا مختلفًا
- تفضيلات تبادل المكدس: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
- سؤال وجواب-من-hf: https://github.com/lil-lab/qa-from-hf
- الرحيق: https://huggingface.co/datasets/berkeley-nest/Nectar
- القاضيLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
متنوعات
- مكتب المفتش العام: https://huggingface.co/datasets/laion/OIG
- مجموعة شاملة من بعض مجموعات البيانات هنا
- oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- تم حل مشاكل LeetCode بلغات برمجة متعددة
- الحوار الاجتماعي الاحترافي: https://huggingface.co/datasets/allenai/prosocial-dialog
- كونفوكيت: https://convokit.cornell.edu/documentation/datasets.html
- مجموعة CoT: https://github.com/kaist-lklab/CoT-Collection
- ديالوغستوديو: https://github.com/salesforce/DialogStudio
- محادثات Chatbot Arena https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- LMSYS 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- سجلات المحادثة: https://conversation-chronicles.github.io/