مجموعات بيانات المحاذاة • مجموعات بيانات خاصة بالمجال • مجموعات بيانات التدريب المسبق ️ مجموعات بيانات متعددة الوسائط
إن النماذج اللغوية الكبيرة (LLMs)، مثل سلسلة GPT من OpenAI، وBard من Google، وWenxin Yiyan من Baidu، تقود تغييرات تكنولوجية عميقة. في الآونة الأخيرة، مع ظهور أطر عمل نموذجية كبيرة مفتوحة المصدر مثل LlaMa وChatGLM، لم يعد تدريب LLM مجالًا حصريًا للشركات الغنية بالموارد. أصبح تدريب حاملي شهادة الماجستير في القانون من قبل منظمات صغيرة أو أفراد أمرًا مهمًا في مجتمع المصادر المفتوحة، مع بعض الأعمال البارزة بما في ذلك Alpaca وVicuna وLuotuo. بالإضافة إلى أطر النماذج الكبيرة، تعد مجموعات التدريب واسعة النطاق وعالية الجودة ضرورية أيضًا لتدريب نماذج اللغات الكبيرة. في الوقت الحالي، لا تزال المجموعات مفتوحة المصدر ذات الصلة في المجتمع متناثرة. ولذلك، فإن الهدف من هذا المستودع هو الجمع المستمر لمجموعات تدريبية عالية الجودة لحاملي شهادة الماجستير في القانون في مجتمع المصادر المفتوحة.
يتطلب تدريب برنامج chatbot LLM الذي يمكنه متابعة التعليمات البشرية بشكل فعال الوصول إلى مجموعات بيانات عالية الجودة تغطي مجموعة من مجالات وأنماط المحادثة. في هذا المستودع، نقدم مجموعة منسقة من مجموعات البيانات المصممة خصيصًا لتدريب روبوتات الدردشة، بما في ذلك الروابط والحجم واللغة والاستخدام ووصف موجز لكل مجموعة بيانات. هدفنا هو تسهيل الأمر على الباحثين والممارسين لتحديد واختيار مجموعات البيانات الأكثر صلة وإفادة لاحتياجاتهم التدريبية في برنامج chatbot LLM. سواء كنت تعمل على تحسين جودة حوار chatbot، أو توليد الاستجابة، أو فهم اللغة، فإن هذا المستودع يحتوي على ما يناسبك.
إذا كنت ترغب في المساهمة، يمكنك الاتصال بـ:
جونهاو تشاو؟
نصح به البروفيسور Wanyun Cui
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
helpSteer | / | RLHF | إنجليزي | 37 ألف حالة | مجموعة بيانات RLHF تم شرحها من قبل الإنسان باستخدام مقاييس المساعدة والصحة والتماسك والتعقيد والإسهاب |
no_robots | / | SFT | إنجليزي | مثيل 10 كيلو | بيانات STF عالية الجودة من صنع الإنسان، دورة واحدة. |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
أنثروبي_ سمو_الذهبي | أولما | SFT/RLHF | إنجليزي | قطار 42.5 ك + اختبار 2.3 ك | تم تحسين مجموعة البيانات غير الضارة لمجموعات بيانات Anthropic المفيدة وغير الضارة (HH). استخدام GPT4 لإعادة كتابة الإجابة الأصلية "المختارة". بالمقارنة مع مجموعة البيانات غير الضارة الأصلية، تعمل مجموعة البيانات هذه تجريبيًا على تحسين أداء طرق RLHF أو DPO أو ULMA بشكل كبير على المقاييس غير الضارة. |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
وظيفة_ الاتصال_ ممتد | / | أزواج | إنجليزي شفرة | / | مجموعة بيانات عالية الجودة تم إنشاؤها بواسطة الإنسان من خلال تحسين واجهة برمجة تطبيقات LM باستخدام القدرة. |
قصص أمريكية | / | حزب العمال | إنجليزي | / | مجموعة كبيرة الحجم تم مسحها ضوئيًا من مكتبة الكونجرس الأمريكية. |
دولما | أولمو | حزب العمال | / | رموز 3T | مجموعة كبيرة ومتنوعة مفتوحة المصدر للتدريب المسبق على LM. |
خلد الماء | خلد الماء2 | أزواج | إنجليزي | 25 ألف | مجموعة بيانات عالية الجودة لتحسين قدرة LM على التفكير في مجالات العلوم والتكنولوجيا والهندسة والرياضيات. |
البفن | ريدموند بوفين مسلسل | الحوار | إنجليزي | ~ 3 آلاف إدخالات | تتكون مجموعة البيانات من محادثات بين إنسان حقيقي وGPT-4، والتي تتميز بسياق طويل (أكثر من ألف رمز مميز لكل محادثة) ومربعات حوار متعددة المنعطفات. |
سلسلة صغيرة | / | أزواج | إنجليزي | / | تهدف سلسلة من الرموز أو النصوص القصيرة والموجزة إلى تحسين قدرة LM على التفكير. |
LongBench | / | تقييم فقط | إنجليزي الصينية | 17 مهمة | معيار لتقييم القدرة على فهم السياق الطويل في LLM. |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
orca-chat | / | الحوار | إنجليزي | 198,463 إدخالات | تهدف مجموعة بيانات الحوار على نمط Orca إلى تحسين قدرة المحادثة ذات السياق الطويل لـ LM. |
DialogStudio | / | الحوار | متعدد اللغات | / | تهدف مجموعة من مجموعات البيانات المتنوعة إلى بناء Chatbot للمحادثة. |
chatbot_arena _conversations | / | RLHF الحوار | متعدد اللغات | 33 ألف محادثة | المحادثات التي تم تنظيفها مع التفضيلات البشرية الزوجية التي تم جمعها في Chatbot Arena. |
WebGLM-qa | WebGLm | أزواج | إنجليزي | 43.6 ألف إدخالات | مجموعة البيانات المستخدمة بواسطة WebGLM، وهو نظام ضمان الجودة يعتمد على LLM والإنترنت. يشتمل كل إدخال في مجموعة البيانات هذه على سؤال وإجابة ومرجع. والجواب مبني على المرجع. |
فاي-1 | فاي-1 | الحوار | إنجليزي | / | مجموعة البيانات التي تم إنشاؤها باستخدام الطريقة الموجودة في الكتب المدرسية هي كل ما تحتاجه. وهو يركز على مشاكل الرياضيات وCS. |
لينلي- التدريب المسبق- dataset | سلسلة لينلي | حزب العمال | الصينية | 3.4 جيجابايت | تشتمل مجموعة بيانات التدريب المسبق الصينية التي يستخدمها نموذج سلسلة Linly على ClueCorpusSmall وCSL news-crawl وما إلى ذلك. |
FineGrainedRLHF | / | RLHF | إنجليزي | ~5K أمثلة | يهدف الريبو إلى تطوير إطار جديد لجمع ردود الفعل البشرية. تهدف البيانات التي تم جمعها إلى تحسين الصحة الواقعية لـ LLM وملاءمة الموضوع والقدرات الأخرى. |
دولفين | / | أزواج | إنجليزي | 4.5 مليون إدخالات | محاولة لتقليد Orca من Microsoft. استنادًا إلى FLANv2. |
دردشة_ مفتوحة مشاركةgpt4_ dataset | دردشة مفتوحة | الحوار | إنجليزي | 6 كيلو مربعات حوار | مجموعة بيانات عالية الجودة تم إنشاؤها باستخدام GPT-4 لإكمال مطالبات ShareGPT المحسّنة. |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
OpenOrca | / | أزواج | إنجليزي | 4.5 مليون عملية إكمال | مجموعة من بيانات FLAN المعززة. تم إنشاؤها باستخدام طريقة ورق Orca. |
كويج-PC كويج لايت | / | أزواج | الصينية | / | نسخة محسنة من COIG. |
معالجLM_Orca | سلسلة orca_mini | أزواج | إنجليزي | 55 ألف إدخال | بيانات WizardLM المحسنة. تم إنشاؤها باستخدام طريقة orca. |
arxiv تعليمات مجموعات البيانات الرياضيات CS الفيزياء | / | أزواج | إنجليزي | 50 ألف/ 50 ألف/ 30 ألف إدخال | تتكون مجموعة البيانات من أزواج الأسئلة والأجوبة المستمدة من ملخصات ArXiv. يتم إنشاء الأسئلة باستخدام نموذج t5-base، بينما يتم إنشاء الإجابات باستخدام نموذج GPT-3.5-turbo. |
اشعر- فضولي | / | أزواج | إنجليزي | 2595 إدخالاً | أسئلة عشوائية وحقائق متوافقة تم إنشاؤها بواسطة Google أشعر بميزات غريبة . |
ign_clean _instruct _dataset_500k | / | أزواج | / | 509 ألف إدخالات | مجموعة بيانات SFT واسعة النطاق تم إنشاؤها صناعيًا من مجموعة فرعية من مطالبات Ultrachat. عدم وجود بطاقة بيانات مفصلة |
معالجLM Evolve_instruct V2 | معالجLM | الحوار | إنجليزي | 196 ألف إدخال | أحدث إصدار من مجموعة بيانات Evolve Instruct. |
ديناصور | / | أزواج | إنجليزي | 800 ألف إدخال | مجموعة البيانات التي تم إنشاؤها عن طريق تطبيق الطريقة في هذه الورقة. تعمل ميزة Highlight على إنشاء بيانات عالية الجودة بتكلفة منخفضة. |
سليم بيجامة | / | حزب العمال | في المقام الأول إنجليزي | / | نسخة نظيفة ومكررة من RedPajama |
مجموعة بيانات ليما | ليما | أزواج | إنجليزي | 1 ألف إدخالات | مجموعة بيانات SFT عالية الجودة تستخدمها LIMA: الأقل هو الأفضل للمحاذاة |
سلسلة تايجر بوت | TigerBot | حزب العمال أزواج | الصينية إنجليزي | / | مجموعات البيانات المستخدمة لتدريب TigerBot، بما في ذلك بيانات التدريب المسبق وبيانات STF وبعض مجموعات البيانات الخاصة بالمجال مثل تقارير الأبحاث المالية. |
TSI-v0 | / | أزواج | إنجليزي | 30 ألف أمثلة لكل مهمة | تمت إعادة صياغة بيانات ضبط التعليمات متعددة المهام من 475 مجموعة بيانات مصدر المهام. على غرار مجموعة بيانات Flan والتعليمات الطبيعية. |
نمبفك | / | حزب العمال | الصينية | / | مجموعة بيانات تدريب مسبق صينية واسعة النطاق يتم تحديثها باستمرار. |
StackOverflow بريد | / | حزب العمال | / | 35 جيجابايت | بيانات StackOverflow الأولية بتنسيق تخفيض السعر، للتدريب المسبق. |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
تعليمات لاميني | / | أزواج | إنجليزي | 2.8 مليون إدخالات | مجموعة بيانات مقطرة من مجموعة فلان، ص 3 والتعليم الذاتي. |
com.ultraChat | / | الحوار | إنجليزي | 1.57 مليون مربع حوار | مجموعة بيانات حوار واسعة النطاق تم إنشاؤها باستخدام اثنين من ChatGPT، أحدهما يعمل كمستخدم والآخر يولد الاستجابة. |
مشاركةGPT_ Vicuna_unfiltered | فيكونا | أزواج | متعدد اللغات | 53 ألف إدخال | تنظيف مجموعة بيانات ShareGPT. |
pku-saferlhf-dataset | سمور | RLHF | إنجليزي | 10K + 1M | مجموعة البيانات الأولى من نوعها وتحتوي على 10 آلاف مثيل مع تفضيلات الأمان. |
RefGPT-مجموعة البيانات رابط غير رسمي | RefGPT | أزواج، الحوار | الصينية | ~ 50 ألف إدخالات | تهدف مجموعة بيانات الحوار الصينية إلى تحسين صحة الحقيقة في LLMs (تخفيف الهلوسة في LLM). |
لوتو-QA-A CoQA-الصينية | مشروع لوتو | سياق | الصينية | 127 ألف زوج ضمان الجودة | مجموعة بيانات مبنية على CoQA المترجمة. تم تعزيزها باستخدام OpenAI API. |
معالج-LM-الصينية instruct-evol | مشروع لوتو | أزواج | الصينية | ~ 70 ألف إدخالات | النسخة الصينية WizardLM 70K. يتم الحصول على الإجابات من خلال الأسئلة المترجمة في واجهة برمجة تطبيقات GPT الخاصة بـ OpenAI ثم الحصول على الإجابات. |
الألبكة_الصينية dataset | / | أزواج | الصينية | / | تتضمن بيانات الألبكة المترجمة GPT-4 بعض البيانات التكميلية (مثل الشعر الصيني والتطبيق وما إلى ذلك). تفتيشها من قبل الإنسان. |
زيهو-كول | افتح المساعد | أزواج | الصينية | 1.5 جيجابايت | بيانات ضمان الجودة على منصة Zhihu QA الصينية المعروفة. |
الألبكة-GPT-4_zh-cn | / | أزواج | الصينية | حوالي 50 ألف إدخال | مجموعة بيانات صينية على طراز الألبكة، تم إنشاؤها بواسطة GPT-4 في الأصل باللغة الصينية، ولم تتم ترجمتها. |
hh-rlhf على عناق الوجه | كوالا | RLHF | إنجليزي | 161 ألف زوج 79.3 ميجابايت | مجموعة بيانات زوجية لتدريب نماذج المكافأة في التعلم المعزز لتحسين ضرر نماذج اللغة وفائدتها. |
Panther-dataset_v1 | النمر | أزواج | إنجليزي | 377 مدخلا | تأتي مجموعة البيانات من hh-rlhf. يقوم بإعادة كتابة hh-rlhf في شكل أزواج المدخلات والمخرجات. |
مجموعة بيانات بايز | بايز | الحوار | إنجليزي | 100 ألف مربع حوار | مجموعة بيانات الحوار التي تم إنشاؤها بواسطة GPT-4 باستخدام التحدث الذاتي. يتم جمع الأسئلة والموضوعات من Quora وStackOverflow وبعض مصادر المعرفة الطبية. |
h2ogpt-fortune2000 شخصية | h2ogpt | أزواج | إنجليزي | 11363 مدخلا | غطت التعليمات الدقيقة التي طورتها h2oai موضوعات مختلفة. |
إس إتش بي | ستيبل فيكونا, خيار الدردشة, ، ستيم شب | RLHF | إنجليزي | 385 ألف إدخال | تختلف مجموعة بيانات RLHF عن تلك المذكورة سابقًا، فهي تستخدم النتائج + الطوابع الزمنية لاستنتاج تفضيلات المستخدمين. يغطي 18 مجالًا، تم جمعها بواسطة جامعة ستانفورد. |
ELI5 | سلسلة ميني إل إم | قدم، RLHF | إنجليزي | 270 ألف إدخال | الأسئلة والأجوبة التي تم جمعها من رديت، بما في ذلك النتيجة. يمكن استخدامه للتدريب على نموذج مكافأة RLHF. |
معالجLM evol_instruct V2 | معالجLM | أزواج | إنجليزي | مجموعة بيانات ضبط التعليمات المستمدة من Alpaca-52K، باستخدام طريقة التطور في هذه الورقة | |
بيانات MOSS SFT | طحلب | أزواج، الحوار | الصينية، الإنجليزية | 1.1 مليون إدخالات | مجموعة بيانات محادثة تم جمعها وتطويرها بواسطة فريق MOSS. يحتوي على ملصقات للفائدة والولاء والضرر لكل إدخالات البيانات. |
شاركGPT52K | كوالا، LLM مستقرة | أزواج | متعدد اللغات | 52 ألف | تشتمل مجموعة البيانات هذه على محادثات تم جمعها من ShareGPT، مع التركيز بشكل خاص على المحادثة الإبداعية المخصصة. |
مجموعة بيانات GPT-4all | جي بي تي-4ال | أزواج | إنجليزي، قد يكون نسخة مترجمة | 400 ألف إدخال | مزيج من بعض المجموعات الفرعية من OIG وP3 وStackoverflow. يغطي موضوعات مثل ضمان الجودة العامة، والأسئلة الإبداعية المخصصة. |
COIG | / | أزواج | الصينية، شفرة | 200 ألف إدخال | مجموعة بيانات مقرها الصين. أنه يحتوي على مجالات مثل ضمان الجودة للأغراض العامة، والامتحانات الصينية، والتعليمات البرمجية. يتم فحص جودتها من قبل المفسرين البشريين. |
RedPajama-Data-1T | بيجامة حمراء | حزب العمال | اللغة الإنجليزية في المقام الأول | 1.2T الرموز 5 تيرابايت | تتبع مجموعة بيانات التدريب المسبق المفتوحة بالكامل طريقة LLaMA. |
OASST1 | مساعد مفتوح | أزواج، الحوار | متعدد اللغات (الإنجليزية، الإسبانية، الخ.) | 66,497 شجرة محادثة | مجموعة بيانات محادثة كبيرة عالية الجودة مكتوبة بشريًا وموضحة بشريًا. ويهدف إلى جعل LLM يولد استجابة أكثر طبيعية. |
الألبكة-COT | فينيكس | أزواج، حوار, سرير الأطفال | إنجليزي | / | مزيج من العديد من مجموعات البيانات مثل مجموعة بيانات Alpaca الكلاسيكية وOIG وGuanaco وبعض مجموعات بيانات CoT (سلسلة الفكر) مثل FLAN-CoT. قد يكون سهل الاستخدام. |
باكتريان-X | / | أزواج | متعدد اللغات (52 لغة) | 67 ألف إدخال لكل لغة | نسخة متعددة اللغات من Alpaca و Dolly-15K . |
databricks-دوللي-15 كيلو zh-cn الاصدار | دوللي2.0 | أزواج | إنجليزي | 15 ألف+ إدخالات | مجموعة بيانات من المطالبات والاستجابات المكتوبة بواسطة الإنسان ، والتي تتميز بمهام مثل الإجابة على الأسئلة ذات المجال المفتوح، والعصف الذهني، والتلخيص، والمزيد. |
AlpacaDataCleaned | بعض النماذج المشابهة لـ Alpaca/ LLaMA | أزواج | إنجليزي | / | نسخة نظيفة من Alpaca وGPT_LLM وGPTeacher. |
مجموعة بيانات GPT-4-LLM | بعض النماذج الشبيهة بالألبكة | أزواج، RLHF | إنجليزي، الصينية | 52 ألف إدخال باللغتين الإنجليزية والصينية على التوالي إدخالات 9K تعليمات غير طبيعية | ليست مجموعة البيانات المستخدمة بواسطة GPT-4!! يتم إنشاؤه بواسطة GPT-4 وبعض LLM الأخرى لتحسين الأزواج وRLHF. ويتضمن بيانات التعليمات بالإضافة إلى بيانات المقارنة بأسلوب RLHF. |
GPTeacher | / | أزواج | إنجليزي | 20 ألف إدخال | تحتوي مجموعة البيانات على أهداف تم إنشاؤها بواسطة GPT-4 وتتضمن العديد من المهام الأولية نفسها مثل مجموعة بيانات Alpaca، مع إضافة بعض المهام الجديدة مثل لعب الأدوار. |
HC3 | كوالا | RLHF | إنجليزي، الصينية | 24322 إنجليزي 12853 صيني | مجموعة بيانات مقارنة متعددة المجالات بين الإنسان وChatGPT. يمكن استخدامه للتدريب على نموذج المكافأة أو التدريب على كشف ChatGPT. |
بيانات الألبكة تحميل | الألبكة، ChatGLM-finetune-LoRA، Koala | حوار, أزواج | إنجليزي | 52 ألف إدخال 21.4 ميجابايت | مجموعة بيانات تم إنشاؤها بواسطة text-davinci-003 لتحسين قدرة النماذج اللغوية على متابعة التعليمات البشرية. |
مكتب المفتش العام OIG-شريحة صغيرة2 | بيثيا-شات-Base-7B، GPT-NeoXT-Chat-Base-20B، كوالا | حوار, أزواج | إنجليزي، شفرة | 44 مليون إدخال | مجموعة بيانات كبيرة لتعليمات المحادثة مع مجموعات فرعية متوسطة وعالية الجودة (OIG-small-chip2) للتعلم متعدد المهام. |
بيانات ChatAlpaca | / | حوار, أزواج | إنجليزي، النسخة الصينية قريبا | 10 آلاف إدخال 39.5 ميجابايت | تهدف مجموعة البيانات إلى مساعدة الباحثين على تطوير نماذج لمتابعة التعليمات في المحادثات متعددة المنعطفات. |
تعليماتWild | com.ColossalChat | أزواج | الإنجليزية والصينية | 10 آلاف جنيه | مجموعة بيانات على طراز Alpaca، ولكن مع المهام الأولية تأتي من لقطة شاشة chatgpt. |
اليراع (流萤) | اليراع (流萤) | أزواج | الصينية | 1.1 مليون إدخالات 1.17 جيجابايت | مجموعة بيانات صينية لضبط التعليمات تحتوي على 1.1 مليون مثال مكتوب بواسطة الإنسان عبر 23 مهمة، ولكن بدون محادثة. |
حسناء نسخة 0.5 ميجا نسخة 1M نسخة 2M | سلسلة بيل، تشون هوا (春华) | أزواج | الصينية | 2.67 مليار في المجموع | مجموعة بيانات تعليمات صينية مشابهة لبيانات الألبكة التي تم إنشاؤها عن طريق توليد إجابات من المهام الأولية، ولكن بدون محادثة. |
GuanacoDataset | جواناكو | حوار, أزواج | إنجليزي، الصينية، اليابانية | 534,530 إدخالات | مجموعة بيانات تعليمات متعددة اللغات لتعزيز قدرات نماذج اللغة في مختلف المهام اللغوية، مثل فهم اللغة الطبيعية والتعرف الصريح على المحتوى. |
OpenAI WebGPT | نموذج مكافأة WebGPT، Koala | RLHF | إنجليزي | 19,578 زوجًا | مجموعة البيانات المستخدمة في ورقة WebGPT. يستخدم لنموذج مكافأة التدريب في RLHF. |
OpenAI تلخيص مقارنة | كوالا | RLHF | إنجليزي | ~93 ألف إدخالات 420 ميجابايت | مجموعة بيانات من التعليقات البشرية التي تساعد في تدريب نموذج المكافأة. تم بعد ذلك استخدام نموذج المكافأة لتدريب نموذج التلخيص للتوافق مع التفضيلات البشرية. |
تعليمات ذاتية | / | أزواج | إنجليزي | 82 ألف إدخال | تم إنشاء مجموعة البيانات باستخدام طريقة التعليم الذاتي المعروفة |
تعليمات غير طبيعية | / | أزواج | إنجليزي | 240,670 أمثلة | محاولة مبكرة لاستخدام النموذج القوي (text-davinci-002) لتوليد البيانات. |
xP3 (وبعض المتغيرات) | بلومز، mT0 | أزواج | متعدد اللغات، شفرة | 79 مليون إدخال 88 جيجابايت | مجموعة بيانات تعليمات لتحسين قدرة تعميم نماذج اللغة، على غرار Natural Instruct . |
فلان V2 | / | / | إنجليزي | / | تقوم مجموعة البيانات بتجميع مجموعات البيانات من Flan 2021 وP3 وتعليمات Super-Natural، بالإضافة إلى العشرات من مجموعات البيانات الأخرى في مجموعة واحدة وتنسيقها في مزيج من القوالب ذات اللقطات الصفرية والقليلة اللقطات وسلسلة الأفكار |
التعليمات الطبيعية جيثب وتنزيل | سلسلة المعارف التقليدية | أزواج، تقييم | متعدد اللغات | / | معيار يضم أكثر من 1600 مهمة مع تعليمات وتعريف لتقييم وتحسين تعميم المهام المتعددة لنماذج اللغة في إطار تعليم اللغة الطبيعية. |
كروسووز | / | الحوار | إنجليزي، الصينية | حوارات 6K | مجموعة البيانات التي قدمتها هذه الورقة، والتي تتعلق بشكل أساسي بموضوع السياحة في بكين، يتم إنشاء الإجابات تلقائيًا وفقًا للقواعد. |
نحن نعتبر عناصر الصف كموضوع.
مكتب المفتش العام | hh-rlhf | xP3 | تعليمات طبيعية | AlpacaDataCleaned | جي بي تي-4-LLM | الألبكة-CoT | |
---|---|---|---|---|---|---|---|
مكتب المفتش العام | / | يتضمن | تداخل | تداخل | تداخل | تداخل | |
hh-rlhf | جزء من | / | تداخل | ||||
xP3 | تداخل | / | تداخل | تداخل | |||
تعليمات طبيعية | تداخل | تداخل | / | تداخل | |||
AlpacaDataCleaned | تداخل | / | تداخل | تداخل | |||
جي بي تي-4-LLM | تداخل | / | تداخل | ||||
الألبكة-CoT | تداخل | تداخل | تداخل | تداخل | تداخل | تداخل | / |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
كومة من الإثبات | إثبات GPT | حزب العمال | إنجليزي مطاط | 13 جيجابايت | مجموعة بيانات للتدريب المسبق تشبه الكومة ولكنها تحتوي على مجموعة بيانات LaTeX لتعزيز قدرة LM في الإثبات. |
peS2o | / | حزب العمال | إنجليزي | 7.5 جيجابايت | مجموعة بيانات ورقية أكاديمية عالية الجودة للتدريب المسبق. |
StackOverflow بريد | / | حزب العمال | / | 35 جيجابايت | بيانات StackOverflow الأولية بتنسيق تخفيض السعر، للتدريب المسبق. |
سليم بيجامة | / | حزب العمال | في المقام الأول إنجليزي | / | نسخة نظيفة ومكررة من RedPajama |
نمبفك | / | حزب العمال | الصينية | / | مجموعة بيانات تدريب مسبق صينية واسعة النطاق يتم تحديثها باستمرار. |
falcon-refinedweb | سلسلة tiiuae/فالكون | حزب العمال | إنجليزي | / | مجموعة فرعية منقحة من CommonCrawl. |
كبوك-150 ألف | / | حزب العمال، بناء مجموعة البيانات | الصينية | أكثر من 150 ألف كتاب | مجموعة بيانات الكتب الصينية الخام. تحتاج إلى بعض خطوط أنابيب المعالجة المسبقة. |
الزحف المشترك | LLaMA (بعد بعض العمليات) | بناء مجموعات البيانات، حزب العمال | / | / | ونادرا ما يتم استخدام مجموعة البيانات الأولية الأكثر شهرة بشكل مباشر. أحد خطوط الأنابيب المحتملة للمعالجة المسبقة هو CCNet |
nlp_Chinese_Corpus | / | حزب العمال، تف | الصينية | / | مجموعة ما قبل التدريب الصينية. تتضمن ويكيبيديا، وبايدو بايكي، وبايدو ضمان الجودة، وبعض منتديات ضمان الجودة ومجموعة الأخبار. |
الكومة (V1) | GLM (جزئيًا)، LLaMA (جزئيًا)، GPT-J، GPT-NeoX-20B، Cerebras-GPT 6.7B، OPT-175b | حزب العمال | متعدد اللغات، شفرة | 825 جيجابايت | مجموعة بيانات متنوعة لنمذجة اللغة مفتوحة المصدر تتكون من 22 مجموعة بيانات أصغر حجمًا وعالية الجودة تتضمن العديد من المجالات والمهام. |
ج4 مجموعة بيانات تعانق الوجه مجموعة بيانات TensorFlow | سلسلة جوجل T5، LLaMA | حزب العمال | إنجليزي | 305 جيجابايت | نسخة ضخمة ومنظفة من مجموعة الزحف على الويب الخاصة بـ Common Crawl. كثيرا ما تستخدم. |
الجذور | يزدهر | حزب العمال | متعدد اللغات، شفرة | 1.6 تيرابايت | مجموعة بيانات متنوعة مفتوحة المصدر تتكون من مجموعات بيانات فرعية مثل Wikipedia وStackExchange لنمذجة اللغة. |
رديت PushshPairs ورق | أوبت-175ب | حزب العمال | / | / | بيانات reddit الأولية، أحد خطوط المعالجة المحتملة في هذه الورقة |
مشروع جوتنبرج | لاما | حزب العمال | متعدد اللغات | / | مجموعة بيانات الكتب، معظمها روايات. لا تتم معالجتها مسبقًا. |
CLUEcorpus | / | حزب العمال، ضبط دقيق، تقييم | الصينية | 100 جيجابايت | مجموعة تدريب مسبق صينية مصدرها Common Crawl . |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
com.starcoderdata | com.starcoder مسلسل | حزب العمال | شفرة | 783 جيجابايت | مجموعة بيانات كبيرة للتدريب المسبق لتحسين قدرة تشفير LM. |
شفرة_ تعليمات _120 ألف_البكة | / | أزواج | الإنجليزية/كود | 121,959 إدخالات | code_instruction بتنسيق التعليمات الدقيقة. |
وظيفة- الدعوات-25 ألف | بعض MPT المتغيرات | أزواج | كود اللغة الانجليزية | 25 ألف إدخال | تهدف مجموعة البيانات إلى تعليم نماذج الذكاء الاصطناعي كيفية استدعاء وظائف APIsGuru بشكل صحيح بناءً على مطالبات اللغة الطبيعية. |
نظريةQA | / | أزواج | إنجليزي | 800 | مجموعة بيانات ضمان الجودة لنظرية العلوم والتكنولوجيا والهندسة والرياضيات (STEM) عالية الجودة. |
فاي-1 | فاي-1 | الحوار | إنجليزي | / | مجموعة البيانات التي تم إنشاؤها باستخدام الطريقة الموجودة في الكتب المدرسية هي كل ما تحتاجه. وهو يركز على مشاكل الرياضيات وCS. |
فينلب | فينغبت | البيانات الخام | إنجليزي، الصينية | / | البيانات النصية المالية الخام مفتوحة المصدر. يشمل الأخبار ووسائل التواصل الاجتماعي وما إلى ذلك. |
بي آر إم 800 ك | البديل من جي بي تي-4 | سياق | إنجليزي | 800 ألف إدخال | مجموعة بيانات الإشراف على العمليات للمشكلات الرياضية |
بيانات مي شات | MeChat | الحوار | الصينية | 355733 أقوال | مجموعة بيانات SFT صينية لتدريب روبوت الدردشة الخاص بالرعاية الصحية العقلية. |
ChatGPT-مطالبات الهروب من السجن | / | / | إنجليزي | حجم الملف 163 كيلو بايت | يطالب بتجاوز تنظيم السلامة في ChatGPT. يمكن استخدامه لفحص مدى ضرر LLMs |
صيني رائع الموارد القانونية | لاWGPT | / | الصينية | / | مجموعة من البيانات القانونية الصينية للتدريب LLM. |
شكل طويل | / | أزواج | إنجليزي | 23.7 ألف إدخالات | تهدف مجموعة البيانات إلى تحسين قدرة إنشاء النص الطويل لـ LLM. |
ضبط التعليمات الرمزية | / | أزواج | إنجليزي، شفرة | 796 | تركز مجموعة البيانات على المهام "الرمزية": مثل ترميز SQL، والحسابات الرياضية، وما إلى ذلك. |
موجه السلامة | / | التقييم فقط | الصينية | 100 ألف إدخال | تطالب السلامة الصينية بتقييم وتحسين سلامة حاملي LLM. |
تنظيف التابير | / | أزواج | إنجليزي، | 116 ألف إدخال | هذه نسخة منقحة من مجموعة بيانات DAISLab لقواعد PairsTT، والتي تم تنظيفها وتسجيلها وتعديلها بالكامل بغرض ضبط التعليمات |
تعليمي_ codesearchnet_python | / | أزواج | إنجليزي & بايثون | 192 ميجابايت | مجموعة البيانات هذه عبارة عن قالب تم إنشاؤه من قاعدة بيانات Python التعليمية التي تم إنشاؤها من نسخة مشروحة من مجموعة بيانات شبكة البحث عن التعليمات البرمجية لمشروع Open-Assistant. |
المالية الألبكة | / | أزواج | إنجليزي | 1.3 ألف إدخالات | مجموعة بيانات على طراز الألبكة ولكنها تركز على الموضوعات المالية |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
مشاركةGPT4V | / | صورة موجه التسمية التوضيحية | إنجليزي | 1.2 مليون حالة | مجموعة من بيانات التسميات التوضيحية متعددة الوسائط التي تعمل بتقنية GPT4-Vision. |
أوبليكس | معرفي مسلسل | صورة وثيقة | إنجليزي | 141 مليون وثيقة | مجموعة مفتوحة وضخمة ومنسقة من مستندات الويب النصية والصور المتداخلة. |
JourneyDB | / | صورة موجه التسمية التوضيحية | إنجليزي | 4 مليون حالة | تشتمل مجموعة البيانات واسعة النطاق على ضمان الجودة والتسمية التوضيحية ومهام المطالبة النصية، والتي تعتمد على صور Midjourney. |
M3IT | يينغ-VLM | صورة التعليمات | متعدد اللغات | 2.4 مليون حالة | تشتمل مجموعة البيانات على 40 مهمة مع 400 تعليمات مكتوبة بشرية. |
تقليد تكنولوجيا المعلومات | قضاعة | صورة التعليمات | متعدد اللغات | 2.2 مليون حالة | أزواج تعليمات واستجابة عالية الجودة ومتعددة الوسائط بناءً على الصور ومقاطع الفيديو. |
تعليمات لافا | لافا | صورة التعليمات | إنجليزي | 158 ألف عينة | مجموعة بيانات متعددة الوسائط تم إنشاؤها بناءً على مجموعة بيانات COCO عن طريق مطالبة GPT-4 بالحصول على التعليمات. |
اسم مجموعة البيانات | يستخدم من قبل | يكتب | لغة | مقاس | الوصف ️ |
---|---|---|---|---|---|
WebText (روابط Reddit) | جي بي تي-2 | حزب العمال | إنجليزي | / | تم الزحف إلى البيانات من Reddit وتصفيتها للتدريب المسبق لـ GPT-2. |
نص ضخم | غوفر، شينشيلا | حزب العمال | 99% إنجليزي، 1% أخرى (بما في ذلك الكود) | ||
WuDao (悟 道) Corpora | جي إل إم | حزب العمال | الصينية | 200 جيجابايت | مجموعة صينية واسعة النطاق، مكون محتمل مفتوح المصدر في الأصل ولكنه غير متوفر الآن. |