[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails عبارة عن مجموعة واسعة من مجموعات البيانات التي تم تطويرها خصيصًا لدعم الأبحاث المتعلقة بمواءمة السلامة في نماذج اللغات الكبيرة (LLMs). تتكون المجموعة حاليًا من ثلاث مجموعات بيانات:
2023/07/10
: نعلن عن فتح المصدر للأوزان المدربة لنموذج مراقبة ضمان الجودة الخاص بنا على الوجه المعانق: PKU-Alignment/beaver-dam-7b. تم تطوير هذا النموذج بدقة باستخدام مجموعة بيانات التصنيف الخاصة بنا. بالإضافة إلى ذلك، تم أيضًا توفير كود التدريب المصاحب للمجتمع بشكل مفتوح.2023/06/29
لقد قمنا بفتح مجموعة بيانات واسعة النطاق من BeaverTails. لقد وصل الآن إلى أكثر من 300k
حالة، بما في ذلك 301k
عينة تدريب و 33.4k
عينة اختبار، ويمكن الرجوع إلى مزيد من التفاصيل إلى مجموعة بيانات Hugging Face PKU-Alignment/BeaverTails. تتكون مجموعة البيانات هذه من أكثر من 300 ألف زوج من الأسئلة والإجابة على الأسئلة (QA)، يرتبط كل منها بفئات ضرر محددة. من المهم ملاحظة أنه يمكن ربط زوج ضمان الجودة الواحد بأكثر من فئة واحدة. تتضمن مجموعة البيانات فئات الضرر الـ 14 التالية:
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
يظهر توزيع هذه الفئات الـ 14 ضمن مجموعة البيانات في الشكل التالي:
لمزيد من المعلومات والوصول إلى البيانات، يرجى الرجوع إلى:
تتكون مجموعة بيانات التفضيل من أكثر من 300 ألف بيانات مقارنة بين الخبراء. يتضمن كل إدخال في مجموعة البيانات هذه إجابتين لسؤال، إلى جانب التصنيفات التعريفية للسلامة والتفضيلات لكلا الإجابتين، مع الأخذ في الاعتبار مدى فائدتهما وعدم ضررهما.
تم توضيح خط أنابيب التعليقات التوضيحية لمجموعة البيانات هذه في الصورة التالية:
لمزيد من المعلومات والوصول إلى البيانات، يرجى الرجوع إلى:
تتكون مجموعة بيانات التقييم لدينا من 700 مطالبة تم تصميمها بعناية وتمتد عبر 14 فئة ضرر و50 لكل فئة. الغرض من مجموعة البيانات هذه هو توفير مجموعة شاملة من المطالبات لأغراض الاختبار. يمكن للباحثين الاستفادة من هذه المطالبات لتوليد مخرجات من نماذجهم الخاصة، مثل استجابات GPT-4، وتقييم أدائهم.
لمزيد من المعلومات والوصول إلى البيانات، يرجى الرجوع إلى:
ملكنا ? Hugging Face BeaverTails
يمكن استخدام مجموعة بيانات ? Hugging Face BeaverTails
لتدريب نموذج ضبط ضمان الجودة للحكم على أزواج ضمان الجودة:
في هذا النموذج، يتم تصنيف زوج ضمان الجودة على أنه ضار أو غير ضار بناءً على مدى حيادية المخاطر، أي الدرجة التي يمكن بها تخفيف المخاطر المحتملة في سؤال يحتمل أن يكون ضارًا من خلال استجابة حميدة.
في دليل examples
الخاص بنا، نقدم رمز التدريب والتقييم الخاص بنا لنموذج الإشراف على ضمان الجودة. كما نقدم أيضًا الأوزان المدربة لنموذج ضبط الجودة الخاص بنا على الوجه المعانق: PKU-Alignment/beaver-dam-7b
.
من خلال ? Hugging Face SafeRLHF Datasets
مجموعة بيانات ? Hugging Face SafeRLHF Datasets
المقدمة من BeaverTails
، بعد جولة واحدة من RLHF، من الممكن تقليل سمية LLMs بشكل فعال دون المساس بأداء النموذج ، كما هو موضح في الشكل أدناه. يستخدم كود التدريب بشكل أساسي مستودع كود Safe-RLHF
. للحصول على معلومات أكثر تفصيلاً حول تفاصيل RLHF، يمكنك الرجوع إلى المكتبة المذكورة.
تحول كبير في التوزيع لتفضيلات السلامة بعد استخدام خط أنابيب Safe-RLHF
على طراز Alpaca-7B.
إذا وجدت عائلة مجموعة بيانات BeaverTails مفيدة في بحثك، فيرجى الاستشهاد بالمقالة التالية:
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
يستفيد هذا المستودع من Anthropic HH-RLHF وSafe-RLHF. شكرًا لأعمالهم الرائعة وجهودهم من أجل إضفاء الطابع الديمقراطي على أبحاث LLM.
يتم إصدار مجموعة بيانات BeaverTails وعائلتها بموجب ترخيص CC BY-NC 4.0. تم إصدار كود التدريب وواجهات برمجة التطبيقات (API) لإدارة ضمان الجودة بموجب ترخيص Apache 2.0.