تنزيل LLMDataHub - تنزيل كود مصدر LLMDataHub

LLMDataHub: مجموعات بيانات رائعة للتدريب على LLM

مجموعات بيانات المحاذاة • مجموعات بيانات خاصة بالمجال • مجموعات بيانات التدريب المسبق ️ مجموعات بيانات متعددة الوسائط

مقدمة ؟

إن النماذج اللغوية الكبيرة (LLMs)، مثل سلسلة GPT من OpenAI، وBard من Google، وWenxin Yiyan من Baidu، تقود تغييرات تكنولوجية عميقة. في الآونة الأخيرة، مع ظهور أطر عمل نموذجية كبيرة مفتوحة المصدر مثل LlaMa وChatGLM، لم يعد تدريب LLM مجالًا حصريًا للشركات الغنية بالموارد. أصبح تدريب حاملي شهادة الماجستير في القانون من قبل منظمات صغيرة أو أفراد أمرًا مهمًا في مجتمع المصادر المفتوحة، مع بعض الأعمال البارزة بما في ذلك Alpaca وVicuna وLuotuo. بالإضافة إلى أطر النماذج الكبيرة، تعد مجموعات التدريب واسعة النطاق وعالية الجودة ضرورية أيضًا لتدريب نماذج اللغات الكبيرة. في الوقت الحالي، لا تزال المجموعات مفتوحة المصدر ذات الصلة في المجتمع متناثرة. ولذلك، فإن الهدف من هذا المستودع هو الجمع المستمر لمجموعات تدريبية عالية الجودة لحاملي شهادة الماجستير في القانون في مجتمع المصادر المفتوحة.

يتطلب تدريب برنامج chatbot LLM الذي يمكنه متابعة التعليمات البشرية بشكل فعال الوصول إلى مجموعات بيانات عالية الجودة تغطي مجموعة من مجالات وأنماط المحادثة. في هذا المستودع، نقدم مجموعة منسقة من مجموعات البيانات المصممة خصيصًا لتدريب روبوتات الدردشة، بما في ذلك الروابط والحجم واللغة والاستخدام ووصف موجز لكل مجموعة بيانات. هدفنا هو تسهيل الأمر على الباحثين والممارسين لتحديد واختيار مجموعات البيانات الأكثر صلة وإفادة لاحتياجاتهم التدريبية في برنامج chatbot LLM. سواء كنت تعمل على تحسين جودة حوار chatbot، أو توليد الاستجابة، أو فهم اللغة، فإن هذا المستودع يحتوي على ما يناسبك.

اتصال ؟

إذا كنت ترغب في المساهمة، يمكنك الاتصال بـ:

جونهاو تشاو؟
نصح به البروفيسور Wanyun Cui

مجموعات بيانات الوصول المفتوح العامة للمحاذاة؟:

اكتب العلامات؟️:

SFT: ضبط دقيق تحت الإشراف
- الحوار: يحتوي كل إدخال على محادثات مستمرة
- الأزواج: كل إدخال هو زوج من المدخلات والمخرجات
- السياق: يحتوي كل إدخال على نص سياق وأزواج ضمان الجودة ذات الصلة
PT: التدريب المسبق
CoT: سلسلة من الأفكار الدقيقة
RLHF: تدريب نموذج المكافأة في التعلم المعزز بالتغذية الراجعة البشرية

تم إصدار مجموعات البيانات في نوفمبر 2023

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
helpSteer	/	RLHF	إنجليزي	37 ألف حالة	مجموعة بيانات RLHF تم شرحها من قبل الإنسان باستخدام مقاييس المساعدة والصحة والتماسك والتعقيد والإسهاب
no_robots	/	SFT	إنجليزي	مثيل 10 كيلو	بيانات STF عالية الجودة من صنع الإنسان، دورة واحدة.

تم إصدار مجموعات البيانات في سبتمبر 2023

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
أنثروبي_ سمو_الذهبي	أولما	SFT/RLHF	إنجليزي	قطار 42.5 ك + اختبار 2.3 ك	تم تحسين مجموعة البيانات غير الضارة لمجموعات بيانات Anthropic المفيدة وغير الضارة (HH). استخدام GPT4 لإعادة كتابة الإجابة الأصلية "المختارة". بالمقارنة مع مجموعة البيانات غير الضارة الأصلية، تعمل مجموعة البيانات هذه تجريبيًا على تحسين أداء طرق RLHF أو DPO أو ULMA بشكل كبير على المقاييس غير الضارة.

تم إصدار مجموعات البيانات في أغسطس 2023

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
وظيفة_ الاتصال_ ممتد	/	أزواج	إنجليزي شفرة	/	مجموعة بيانات عالية الجودة تم إنشاؤها بواسطة الإنسان من خلال تحسين واجهة برمجة تطبيقات LM باستخدام القدرة.
قصص أمريكية	/	حزب العمال	إنجليزي	/	مجموعة كبيرة الحجم تم مسحها ضوئيًا من مكتبة الكونجرس الأمريكية.
دولما	أولمو	حزب العمال	/	رموز 3T	مجموعة كبيرة ومتنوعة مفتوحة المصدر للتدريب المسبق على LM.
خلد الماء	خلد الماء2	أزواج	إنجليزي	25 ألف	مجموعة بيانات عالية الجودة لتحسين قدرة LM على التفكير في مجالات العلوم والتكنولوجيا والهندسة والرياضيات.
البفن	ريدموند بوفين مسلسل	الحوار	إنجليزي	~ 3 آلاف إدخالات	تتكون مجموعة البيانات من محادثات بين إنسان حقيقي وGPT-4، والتي تتميز بسياق طويل (أكثر من ألف رمز مميز لكل محادثة) ومربعات حوار متعددة المنعطفات.
سلسلة صغيرة	/	أزواج	إنجليزي	/	تهدف سلسلة من الرموز أو النصوص القصيرة والموجزة إلى تحسين قدرة LM على التفكير.
LongBench	/	تقييم فقط	إنجليزي الصينية	17 مهمة	معيار لتقييم القدرة على فهم السياق الطويل في LLM.

تم إصدار مجموعات البيانات في يوليو 2023

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
orca-chat	/	الحوار	إنجليزي	198,463 إدخالات	تهدف مجموعة بيانات الحوار على نمط Orca إلى تحسين قدرة المحادثة ذات السياق الطويل لـ LM.
DialogStudio	/	الحوار	متعدد اللغات	/	تهدف مجموعة من مجموعات البيانات المتنوعة إلى بناء Chatbot للمحادثة.
chatbot_arena _conversations	/	RLHF الحوار	متعدد اللغات	33 ألف محادثة	المحادثات التي تم تنظيفها مع التفضيلات البشرية الزوجية التي تم جمعها في Chatbot Arena.
WebGLM-qa	WebGLm	أزواج	إنجليزي	43.6 ألف إدخالات	مجموعة البيانات المستخدمة بواسطة WebGLM، وهو نظام ضمان الجودة يعتمد على LLM والإنترنت. يشتمل كل إدخال في مجموعة البيانات هذه على سؤال وإجابة ومرجع. والجواب مبني على المرجع.
فاي-1	فاي-1	الحوار	إنجليزي	/	مجموعة البيانات التي تم إنشاؤها باستخدام الطريقة الموجودة في الكتب المدرسية هي كل ما تحتاجه. وهو يركز على مشاكل الرياضيات وCS.
لينلي- التدريب المسبق- dataset	سلسلة لينلي	حزب العمال	الصينية	3.4 جيجابايت	تشتمل مجموعة بيانات التدريب المسبق الصينية التي يستخدمها نموذج سلسلة Linly على ClueCorpusSmall وCSL news-crawl وما إلى ذلك.
FineGrainedRLHF	/	RLHF	إنجليزي	~5K أمثلة	يهدف الريبو إلى تطوير إطار جديد لجمع ردود الفعل البشرية. تهدف البيانات التي تم جمعها إلى تحسين الصحة الواقعية لـ LLM وملاءمة الموضوع والقدرات الأخرى.
دولفين	/	أزواج	إنجليزي	4.5 مليون إدخالات	محاولة لتقليد Orca من Microsoft. استنادًا إلى FLANv2.
دردشة_ مفتوحة مشاركةgpt4_ dataset	دردشة مفتوحة	الحوار	إنجليزي	6 كيلو مربعات حوار	مجموعة بيانات عالية الجودة تم إنشاؤها باستخدام GPT-4 لإكمال مطالبات ShareGPT المحسّنة.

تم إصدار مجموعات البيانات في يونيو 2023

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
OpenOrca	/	أزواج	إنجليزي	4.5 مليون عملية إكمال	مجموعة من بيانات FLAN المعززة. تم إنشاؤها باستخدام طريقة ورق Orca.
كويج-PC كويج لايت	/	أزواج	الصينية	/	نسخة محسنة من COIG.
معالجLM_Orca	سلسلة orca_mini	أزواج	إنجليزي	55 ألف إدخال	بيانات WizardLM المحسنة. تم إنشاؤها باستخدام طريقة orca.
arxiv تعليمات مجموعات البيانات الرياضيات CS الفيزياء	/	أزواج	إنجليزي	50 ألف/ 50 ألف/ 30 ألف إدخال	تتكون مجموعة البيانات من أزواج الأسئلة والأجوبة المستمدة من ملخصات ArXiv. يتم إنشاء الأسئلة باستخدام نموذج t5-base، بينما يتم إنشاء الإجابات باستخدام نموذج GPT-3.5-turbo.
اشعر- فضولي	/	أزواج	إنجليزي	2595 إدخالاً	أسئلة عشوائية وحقائق متوافقة تم إنشاؤها بواسطة Google أشعر بميزات غريبة .
ign_clean _instruct _dataset_500k	/	أزواج	/	509 ألف إدخالات	مجموعة بيانات SFT واسعة النطاق تم إنشاؤها صناعيًا من مجموعة فرعية من مطالبات Ultrachat. عدم وجود بطاقة بيانات مفصلة
معالجLM Evolve_instruct V2	معالجLM	الحوار	إنجليزي	196 ألف إدخال	أحدث إصدار من مجموعة بيانات Evolve Instruct.
ديناصور	/	أزواج	إنجليزي	800 ألف إدخال	مجموعة البيانات التي تم إنشاؤها عن طريق تطبيق الطريقة في هذه الورقة. تعمل ميزة Highlight على إنشاء بيانات عالية الجودة بتكلفة منخفضة.
سليم بيجامة	/	حزب العمال	في المقام الأول إنجليزي	/	نسخة نظيفة ومكررة من RedPajama
مجموعة بيانات ليما	ليما	أزواج	إنجليزي	1 ألف إدخالات	مجموعة بيانات SFT عالية الجودة تستخدمها LIMA: الأقل هو الأفضل للمحاذاة
سلسلة تايجر بوت	TigerBot	حزب العمال أزواج	الصينية إنجليزي	/	مجموعات البيانات المستخدمة لتدريب TigerBot، بما في ذلك بيانات التدريب المسبق وبيانات STF وبعض مجموعات البيانات الخاصة بالمجال مثل تقارير الأبحاث المالية.
TSI-v0	/	أزواج	إنجليزي	30 ألف أمثلة لكل مهمة	تمت إعادة صياغة بيانات ضبط التعليمات متعددة المهام من 475 مجموعة بيانات مصدر المهام. على غرار مجموعة بيانات Flan والتعليمات الطبيعية.
نمبفك	/	حزب العمال	الصينية	/	مجموعة بيانات تدريب مسبق صينية واسعة النطاق يتم تحديثها باستمرار.
StackOverflow بريد	/	حزب العمال	/	35 جيجابايت	بيانات StackOverflow الأولية بتنسيق تخفيض السعر، للتدريب المسبق.

تم إصدار مجموعات البيانات قبل يونيو 2023

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
تعليمات لاميني	/	أزواج	إنجليزي	2.8 مليون إدخالات	مجموعة بيانات مقطرة من مجموعة فلان، ص 3 والتعليم الذاتي.
com.ultraChat	/	الحوار	إنجليزي	1.57 مليون مربع حوار	مجموعة بيانات حوار واسعة النطاق تم إنشاؤها باستخدام اثنين من ChatGPT، أحدهما يعمل كمستخدم والآخر يولد الاستجابة.
مشاركةGPT_ Vicuna_unfiltered	فيكونا	أزواج	متعدد اللغات	53 ألف إدخال	تنظيف مجموعة بيانات ShareGPT.
pku-saferlhf-dataset	سمور	RLHF	إنجليزي	10K + 1M	مجموعة البيانات الأولى من نوعها وتحتوي على 10 آلاف مثيل مع تفضيلات الأمان.
RefGPT-مجموعة البيانات رابط غير رسمي	RefGPT	أزواج، الحوار	الصينية	~ 50 ألف إدخالات	تهدف مجموعة بيانات الحوار الصينية إلى تحسين صحة الحقيقة في LLMs (تخفيف الهلوسة في LLM).
لوتو-QA-A CoQA-الصينية	مشروع لوتو	سياق	الصينية	127 ألف زوج ضمان الجودة	مجموعة بيانات مبنية على CoQA المترجمة. تم تعزيزها باستخدام OpenAI API.
معالج-LM-الصينية instruct-evol	مشروع لوتو	أزواج	الصينية	~ 70 ألف إدخالات	النسخة الصينية WizardLM 70K. يتم الحصول على الإجابات من خلال الأسئلة المترجمة في واجهة برمجة تطبيقات GPT الخاصة بـ OpenAI ثم الحصول على الإجابات.
الألبكة_الصينية dataset	/	أزواج	الصينية	/	تتضمن بيانات الألبكة المترجمة GPT-4 بعض البيانات التكميلية (مثل الشعر الصيني والتطبيق وما إلى ذلك). تفتيشها من قبل الإنسان.
زيهو-كول	افتح المساعد	أزواج	الصينية	1.5 جيجابايت	بيانات ضمان الجودة على منصة Zhihu QA الصينية المعروفة.
الألبكة-GPT-4_zh-cn	/	أزواج	الصينية	حوالي 50 ألف إدخال	مجموعة بيانات صينية على طراز الألبكة، تم إنشاؤها بواسطة GPT-4 في الأصل باللغة الصينية، ولم تتم ترجمتها.
hh-rlhf على عناق الوجه	كوالا	RLHF	إنجليزي	161 ألف زوج 79.3 ميجابايت	مجموعة بيانات زوجية لتدريب نماذج المكافأة في التعلم المعزز لتحسين ضرر نماذج اللغة وفائدتها.
Panther-dataset_v1	النمر	أزواج	إنجليزي	377 مدخلا	تأتي مجموعة البيانات من hh-rlhf. يقوم بإعادة كتابة hh-rlhf في شكل أزواج المدخلات والمخرجات.
مجموعة بيانات بايز	بايز	الحوار	إنجليزي	100 ألف مربع حوار	مجموعة بيانات الحوار التي تم إنشاؤها بواسطة GPT-4 باستخدام التحدث الذاتي. يتم جمع الأسئلة والموضوعات من Quora وStackOverflow وبعض مصادر المعرفة الطبية.
h2ogpt-fortune2000 شخصية	h2ogpt	أزواج	إنجليزي	11363 مدخلا	غطت التعليمات الدقيقة التي طورتها h2oai موضوعات مختلفة.
إس إتش بي	ستيبل فيكونا, خيار الدردشة, ، ستيم شب	RLHF	إنجليزي	385 ألف إدخال	تختلف مجموعة بيانات RLHF عن تلك المذكورة سابقًا، فهي تستخدم النتائج + الطوابع الزمنية لاستنتاج تفضيلات المستخدمين. يغطي 18 مجالًا، تم جمعها بواسطة جامعة ستانفورد.
ELI5	سلسلة ميني إل إم	قدم، RLHF	إنجليزي	270 ألف إدخال	الأسئلة والأجوبة التي تم جمعها من رديت، بما في ذلك النتيجة. يمكن استخدامه للتدريب على نموذج مكافأة RLHF.
معالجLM evol_instruct V2	معالجLM	أزواج	إنجليزي		مجموعة بيانات ضبط التعليمات المستمدة من Alpaca-52K، باستخدام طريقة التطور في هذه الورقة
بيانات MOSS SFT	طحلب	أزواج، الحوار	الصينية، الإنجليزية	1.1 مليون إدخالات	مجموعة بيانات محادثة تم جمعها وتطويرها بواسطة فريق MOSS. يحتوي على ملصقات للفائدة والولاء والضرر لكل إدخالات البيانات.
شاركGPT52K	كوالا، LLM مستقرة	أزواج	متعدد اللغات	52 ألف	تشتمل مجموعة البيانات هذه على محادثات تم جمعها من ShareGPT، مع التركيز بشكل خاص على المحادثة الإبداعية المخصصة.
مجموعة بيانات GPT-4all	جي بي تي-4ال	أزواج	إنجليزي، قد يكون نسخة مترجمة	400 ألف إدخال	مزيج من بعض المجموعات الفرعية من OIG وP3 وStackoverflow. يغطي موضوعات مثل ضمان الجودة العامة، والأسئلة الإبداعية المخصصة.
COIG	/	أزواج	الصينية، شفرة	200 ألف إدخال	مجموعة بيانات مقرها الصين. أنه يحتوي على مجالات مثل ضمان الجودة للأغراض العامة، والامتحانات الصينية، والتعليمات البرمجية. يتم فحص جودتها من قبل المفسرين البشريين.
RedPajama-Data-1T	بيجامة حمراء	حزب العمال	اللغة الإنجليزية في المقام الأول	1.2T الرموز 5 تيرابايت	تتبع مجموعة بيانات التدريب المسبق المفتوحة بالكامل طريقة LLaMA.
OASST1	مساعد مفتوح	أزواج، الحوار	متعدد اللغات (الإنجليزية، الإسبانية، الخ.)	66,497 شجرة محادثة	مجموعة بيانات محادثة كبيرة عالية الجودة مكتوبة بشريًا وموضحة بشريًا. ويهدف إلى جعل LLM يولد استجابة أكثر طبيعية.
الألبكة-COT	فينيكس	أزواج، حوار, سرير الأطفال	إنجليزي	/	مزيج من العديد من مجموعات البيانات مثل مجموعة بيانات Alpaca الكلاسيكية وOIG وGuanaco وبعض مجموعات بيانات CoT (سلسلة الفكر) مثل FLAN-CoT. قد يكون سهل الاستخدام.
باكتريان-X	/	أزواج	متعدد اللغات (52 لغة)	67 ألف إدخال لكل لغة	نسخة متعددة اللغات من Alpaca و Dolly-15K .
databricks-دوللي-15 كيلو zh-cn الاصدار	دوللي2.0	أزواج	إنجليزي	15 ألف+ إدخالات	مجموعة بيانات من المطالبات والاستجابات المكتوبة بواسطة الإنسان ، والتي تتميز بمهام مثل الإجابة على الأسئلة ذات المجال المفتوح، والعصف الذهني، والتلخيص، والمزيد.
AlpacaDataCleaned	بعض النماذج المشابهة لـ Alpaca/ LLaMA	أزواج	إنجليزي	/	نسخة نظيفة من Alpaca وGPT_LLM وGPTeacher.
مجموعة بيانات GPT-4-LLM	بعض النماذج الشبيهة بالألبكة	أزواج، RLHF	إنجليزي، الصينية	52 ألف إدخال باللغتين الإنجليزية والصينية على التوالي إدخالات 9K تعليمات غير طبيعية	ليست مجموعة البيانات المستخدمة بواسطة GPT-4!! يتم إنشاؤه بواسطة GPT-4 وبعض LLM الأخرى لتحسين الأزواج وRLHF. ويتضمن بيانات التعليمات بالإضافة إلى بيانات المقارنة بأسلوب RLHF.
GPTeacher	/	أزواج	إنجليزي	20 ألف إدخال	تحتوي مجموعة البيانات على أهداف تم إنشاؤها بواسطة GPT-4 وتتضمن العديد من المهام الأولية نفسها مثل مجموعة بيانات Alpaca، مع إضافة بعض المهام الجديدة مثل لعب الأدوار.
HC3	كوالا	RLHF	إنجليزي، الصينية	24322 إنجليزي 12853 صيني	مجموعة بيانات مقارنة متعددة المجالات بين الإنسان وChatGPT. يمكن استخدامه للتدريب على نموذج المكافأة أو التدريب على كشف ChatGPT.
بيانات الألبكة تحميل	الألبكة، ChatGLM-finetune-LoRA، Koala	حوار, أزواج	إنجليزي	52 ألف إدخال 21.4 ميجابايت	مجموعة بيانات تم إنشاؤها بواسطة text-davinci-003 لتحسين قدرة النماذج اللغوية على متابعة التعليمات البشرية.
مكتب المفتش العام OIG-شريحة صغيرة2	بيثيا-شات-Base-7B، GPT-NeoXT-Chat-Base-20B، كوالا	حوار, أزواج	إنجليزي، شفرة	44 مليون إدخال	مجموعة بيانات كبيرة لتعليمات المحادثة مع مجموعات فرعية متوسطة وعالية الجودة (OIG-small-chip2) للتعلم متعدد المهام.
بيانات ChatAlpaca	/	حوار, أزواج	إنجليزي، النسخة الصينية قريبا	10 آلاف إدخال 39.5 ميجابايت	تهدف مجموعة البيانات إلى مساعدة الباحثين على تطوير نماذج لمتابعة التعليمات في المحادثات متعددة المنعطفات.
تعليماتWild	com.ColossalChat	أزواج	الإنجليزية والصينية	10 آلاف جنيه	مجموعة بيانات على طراز Alpaca، ولكن مع المهام الأولية تأتي من لقطة شاشة chatgpt.
اليراع (流萤)	اليراع (流萤)	أزواج	الصينية	1.1 مليون إدخالات 1.17 جيجابايت	مجموعة بيانات صينية لضبط التعليمات تحتوي على 1.1 مليون مثال مكتوب بواسطة الإنسان عبر 23 مهمة، ولكن بدون محادثة.
حسناء نسخة 0.5 ميجا نسخة 1M نسخة 2M	سلسلة بيل، تشون هوا (春华)	أزواج	الصينية	2.67 مليار في المجموع	مجموعة بيانات تعليمات صينية مشابهة لبيانات الألبكة التي تم إنشاؤها عن طريق توليد إجابات من المهام الأولية، ولكن بدون محادثة.
GuanacoDataset	جواناكو	حوار, أزواج	إنجليزي، الصينية، اليابانية	534,530 إدخالات	مجموعة بيانات تعليمات متعددة اللغات لتعزيز قدرات نماذج اللغة في مختلف المهام اللغوية، مثل فهم اللغة الطبيعية والتعرف الصريح على المحتوى.
OpenAI WebGPT	نموذج مكافأة WebGPT، Koala	RLHF	إنجليزي	19,578 زوجًا	مجموعة البيانات المستخدمة في ورقة WebGPT. يستخدم لنموذج مكافأة التدريب في RLHF.
OpenAI تلخيص مقارنة	كوالا	RLHF	إنجليزي	~93 ألف إدخالات 420 ميجابايت	مجموعة بيانات من التعليقات البشرية التي تساعد في تدريب نموذج المكافأة. تم بعد ذلك استخدام نموذج المكافأة لتدريب نموذج التلخيص للتوافق مع التفضيلات البشرية.
تعليمات ذاتية	/	أزواج	إنجليزي	82 ألف إدخال	تم إنشاء مجموعة البيانات باستخدام طريقة التعليم الذاتي المعروفة
تعليمات غير طبيعية	/	أزواج	إنجليزي	240,670 أمثلة	محاولة مبكرة لاستخدام النموذج القوي (text-davinci-002) لتوليد البيانات.
xP3 (وبعض المتغيرات)	بلومز، mT0	أزواج	متعدد اللغات، شفرة	79 مليون إدخال 88 جيجابايت	مجموعة بيانات تعليمات لتحسين قدرة تعميم نماذج اللغة، على غرار Natural Instruct .
فلان V2	/	/	إنجليزي	/	تقوم مجموعة البيانات بتجميع مجموعات البيانات من Flan 2021 وP3 وتعليمات Super-Natural، بالإضافة إلى العشرات من مجموعات البيانات الأخرى في مجموعة واحدة وتنسيقها في مزيج من القوالب ذات اللقطات الصفرية والقليلة اللقطات وسلسلة الأفكار
التعليمات الطبيعية جيثب وتنزيل	سلسلة المعارف التقليدية	أزواج، تقييم	متعدد اللغات	/	معيار يضم أكثر من 1600 مهمة مع تعليمات وتعريف لتقييم وتحسين تعميم المهام المتعددة لنماذج اللغة في إطار تعليم اللغة الطبيعية.
كروسووز	/	الحوار	إنجليزي، الصينية	حوارات 6K	مجموعة البيانات التي قدمتها هذه الورقة، والتي تتعلق بشكل أساسي بموضوع السياحة في بكين، يتم إنشاء الإجابات تلقائيًا وفقًا للقواعد.

التداخلات المحتملة ️

نحن نعتبر عناصر الصف كموضوع.

	مكتب المفتش العام	hh-rlhf	xP3	تعليمات طبيعية	AlpacaDataCleaned	جي بي تي-4-LLM	الألبكة-CoT
مكتب المفتش العام	/	يتضمن	تداخل	تداخل	تداخل		تداخل
hh-rlhf	جزء من	/					تداخل
xP3	تداخل		/	تداخل			تداخل
تعليمات طبيعية	تداخل		تداخل	/			تداخل
AlpacaDataCleaned	تداخل				/	تداخل	تداخل
جي بي تي-4-LLM					تداخل	/	تداخل
الألبكة-CoT	تداخل	تداخل	تداخل	تداخل	تداخل	تداخل	/

فتح مجموعات البيانات للتدريب المسبق؟

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
كومة من الإثبات	إثبات GPT	حزب العمال	إنجليزي مطاط	13 جيجابايت	مجموعة بيانات للتدريب المسبق تشبه الكومة ولكنها تحتوي على مجموعة بيانات LaTeX لتعزيز قدرة LM في الإثبات.
peS2o	/	حزب العمال	إنجليزي	7.5 جيجابايت	مجموعة بيانات ورقية أكاديمية عالية الجودة للتدريب المسبق.
StackOverflow بريد	/	حزب العمال	/	35 جيجابايت	بيانات StackOverflow الأولية بتنسيق تخفيض السعر، للتدريب المسبق.
سليم بيجامة	/	حزب العمال	في المقام الأول إنجليزي	/	نسخة نظيفة ومكررة من RedPajama
نمبفك	/	حزب العمال	الصينية	/	مجموعة بيانات تدريب مسبق صينية واسعة النطاق يتم تحديثها باستمرار.
falcon-refinedweb	سلسلة tiiuae/فالكون	حزب العمال	إنجليزي	/	مجموعة فرعية منقحة من CommonCrawl.
كبوك-150 ألف	/	حزب العمال، بناء مجموعة البيانات	الصينية	أكثر من 150 ألف كتاب	مجموعة بيانات الكتب الصينية الخام. تحتاج إلى بعض خطوط أنابيب المعالجة المسبقة.
الزحف المشترك	LLaMA (بعد بعض العمليات)	بناء مجموعات البيانات، حزب العمال	/	/	ونادرا ما يتم استخدام مجموعة البيانات الأولية الأكثر شهرة بشكل مباشر. أحد خطوط الأنابيب المحتملة للمعالجة المسبقة هو CCNet
nlp_Chinese_Corpus	/	حزب العمال، تف	الصينية	/	مجموعة ما قبل التدريب الصينية. تتضمن ويكيبيديا، وبايدو بايكي، وبايدو ضمان الجودة، وبعض منتديات ضمان الجودة ومجموعة الأخبار.
الكومة (V1)	GLM (جزئيًا)، LLaMA (جزئيًا)، GPT-J، GPT-NeoX-20B، Cerebras-GPT 6.7B، OPT-175b	حزب العمال	متعدد اللغات، شفرة	825 جيجابايت	مجموعة بيانات متنوعة لنمذجة اللغة مفتوحة المصدر تتكون من 22 مجموعة بيانات أصغر حجمًا وعالية الجودة تتضمن العديد من المجالات والمهام.
ج4 مجموعة بيانات تعانق الوجه مجموعة بيانات TensorFlow	سلسلة جوجل T5، LLaMA	حزب العمال	إنجليزي	305 جيجابايت	نسخة ضخمة ومنظفة من مجموعة الزحف على الويب الخاصة بـ Common Crawl. كثيرا ما تستخدم.
الجذور	يزدهر	حزب العمال	متعدد اللغات، شفرة	1.6 تيرابايت	مجموعة بيانات متنوعة مفتوحة المصدر تتكون من مجموعات بيانات فرعية مثل Wikipedia وStackExchange لنمذجة اللغة.
رديت PushshPairs ورق	أوبت-175ب	حزب العمال	/	/	بيانات reddit الأولية، أحد خطوط المعالجة المحتملة في هذه الورقة
مشروع جوتنبرج	لاما	حزب العمال	متعدد اللغات	/	مجموعة بيانات الكتب، معظمها روايات. لا تتم معالجتها مسبقًا.
CLUEcorpus	/	حزب العمال، ضبط دقيق، تقييم	الصينية	100 جيجابايت	مجموعة تدريب مسبق صينية مصدرها Common Crawl .

مجموعات البيانات الخاصة بالمجال؟

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
com.starcoderdata	com.starcoder مسلسل	حزب العمال	شفرة	783 جيجابايت	مجموعة بيانات كبيرة للتدريب المسبق لتحسين قدرة تشفير LM.
شفرة_ تعليمات _120 ألف_البكة	/	أزواج	الإنجليزية/كود	121,959 إدخالات	code_instruction بتنسيق التعليمات الدقيقة.
وظيفة- الدعوات-25 ألف	بعض MPT المتغيرات	أزواج	كود اللغة الانجليزية	25 ألف إدخال	تهدف مجموعة البيانات إلى تعليم نماذج الذكاء الاصطناعي كيفية استدعاء وظائف APIsGuru بشكل صحيح بناءً على مطالبات اللغة الطبيعية.
نظريةQA	/	أزواج	إنجليزي	800	مجموعة بيانات ضمان الجودة لنظرية العلوم والتكنولوجيا والهندسة والرياضيات (STEM) عالية الجودة.
فاي-1	فاي-1	الحوار	إنجليزي	/	مجموعة البيانات التي تم إنشاؤها باستخدام الطريقة الموجودة في الكتب المدرسية هي كل ما تحتاجه. وهو يركز على مشاكل الرياضيات وCS.
فينلب	فينغبت	البيانات الخام	إنجليزي، الصينية	/	البيانات النصية المالية الخام مفتوحة المصدر. يشمل الأخبار ووسائل التواصل الاجتماعي وما إلى ذلك.
بي آر إم 800 ك	البديل من جي بي تي-4	سياق	إنجليزي	800 ألف إدخال	مجموعة بيانات الإشراف على العمليات للمشكلات الرياضية
بيانات مي شات ️ استخدمه بعناية	MeChat	الحوار	الصينية	355733 أقوال	مجموعة بيانات SFT صينية لتدريب روبوت الدردشة الخاص بالرعاية الصحية العقلية.
ChatGPT-مطالبات الهروب من السجن ️ محفوف بالمخاطر	/	/	إنجليزي	حجم الملف 163 كيلو بايت	يطالب بتجاوز تنظيم السلامة في ChatGPT. يمكن استخدامه لفحص مدى ضرر LLMs
صيني رائع الموارد القانونية	لاWGPT	/	الصينية	/	مجموعة من البيانات القانونية الصينية للتدريب LLM.
شكل طويل	/	أزواج	إنجليزي	23.7 ألف إدخالات	تهدف مجموعة البيانات إلى تحسين قدرة إنشاء النص الطويل لـ LLM.
ضبط التعليمات الرمزية	/	أزواج	إنجليزي، شفرة	796	تركز مجموعة البيانات على المهام "الرمزية": مثل ترميز SQL، والحسابات الرياضية، وما إلى ذلك.
موجه السلامة	/	التقييم فقط	الصينية	100 ألف إدخال	تطالب السلامة الصينية بتقييم وتحسين سلامة حاملي LLM.
تنظيف التابير	/	أزواج	إنجليزي،	116 ألف إدخال	هذه نسخة منقحة من مجموعة بيانات DAISLab لقواعد PairsTT، والتي تم تنظيفها وتسجيلها وتعديلها بالكامل بغرض ضبط التعليمات
تعليمي_ codesearchnet_python	/	أزواج	إنجليزي & بايثون	192 ميجابايت	مجموعة البيانات هذه عبارة عن قالب تم إنشاؤه من قاعدة بيانات Python التعليمية التي تم إنشاؤها من نسخة مشروحة من مجموعة بيانات شبكة البحث عن التعليمات البرمجية لمشروع Open-Assistant.
المالية الألبكة	/	أزواج	إنجليزي	1.3 ألف إدخالات	مجموعة بيانات على طراز الألبكة ولكنها تركز على الموضوعات المالية

مجموعات البيانات المتعددة الوسائط لـ VLM

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
مشاركةGPT4V	/	صورة موجه التسمية التوضيحية	إنجليزي	1.2 مليون حالة	مجموعة من بيانات التسميات التوضيحية متعددة الوسائط التي تعمل بتقنية GPT4-Vision.
أوبليكس	معرفي مسلسل	صورة وثيقة	إنجليزي	141 مليون وثيقة	مجموعة مفتوحة وضخمة ومنسقة من مستندات الويب النصية والصور المتداخلة.
JourneyDB	/	صورة موجه التسمية التوضيحية	إنجليزي	4 مليون حالة	تشتمل مجموعة البيانات واسعة النطاق على ضمان الجودة والتسمية التوضيحية ومهام المطالبة النصية، والتي تعتمد على صور Midjourney.
M3IT	يينغ-VLM	صورة التعليمات	متعدد اللغات	2.4 مليون حالة	تشتمل مجموعة البيانات على 40 مهمة مع 400 تعليمات مكتوبة بشرية.
تقليد تكنولوجيا المعلومات	قضاعة	صورة التعليمات	متعدد اللغات	2.2 مليون حالة	أزواج تعليمات واستجابة عالية الجودة ومتعددة الوسائط بناءً على الصور ومقاطع الفيديو.
تعليمات لافا	لافا	صورة التعليمات	إنجليزي	158 ألف عينة	مجموعة بيانات متعددة الوسائط تم إنشاؤها بناءً على مجموعة بيانات COCO عن طريق مطالبة GPT-4 بالحصول على التعليمات.

مجموعات البيانات الخاصة؟

اسم مجموعة البيانات	يستخدم من قبل	يكتب	لغة	مقاس	الوصف ️
WebText (روابط Reddit)	جي بي تي-2	حزب العمال	إنجليزي	/	تم الزحف إلى البيانات من Reddit وتصفيتها للتدريب المسبق لـ GPT-2.
نص ضخم	غوفر، شينشيلا	حزب العمال	99% إنجليزي، 1% أخرى (بما في ذلك الكود)
WuDao (悟道) Corpora	جي إل إم	حزب العمال	الصينية	200 جيجابايت	مجموعة صينية واسعة النطاق، مكون محتمل مفتوح المصدر في الأصل ولكنه غير متوفر الآن.