[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails は、大規模言語モデル (LLM) における安全性の調整に関する研究をサポートするために特別に開発されたデータセットの広範なコレクションです。現在、コレクションは 3 つのデータセットで構成されています。
2023/07/10
: ハグフェイスの QA モデレーション モデルのトレーニングされた重みのオープンソース化を発表しました: PKU-Alignment/beaver-dam-7b。このモデルは、当社独自の分類データセットを使用して細心の注意を払って開発されました。さらに、付属のトレーニング コードもコミュニティで公開されています。2023/06/29
BeaverTails の大規模なデータセットをさらにオープンソース化しました。現在、 300k
301k
トレーニング サンプルと33.4k
テスト サンプルを含む 300,000 のインスタンスに達しています。詳細については、Hugging Face データセット PKU-Alignment/BeaverTails を参照してください。 このデータセットは、人間がラベルを付けた 300,000 を超える質問と回答 (QA) のペアで構成されており、それぞれが特定の危害カテゴリに関連付けられています。 1 つの QA ペアを複数のカテゴリにリンクできることに注意することが重要です。データセットには、次の 14 の危害カテゴリが含まれています。
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
データセット内のこれら 14 のカテゴリの分布を次の図に視覚化します。
詳細とデータへのアクセスについては、以下を参照してください。
嗜好データセットは 300,000 以上の専門家の比較データで構成されています。このデータセットの各エントリには、質問に対する 2 つの回答と、有用性と無害性を考慮した両方の回答に対する安全性メタラベルと好みが含まれています。
このデータセットのアノテーション パイプラインを次の図に示します。
詳細とデータへのアクセスについては、以下を参照してください。
当社の評価データセットは、14 の危害カテゴリにまたがり、カテゴリごとに 50 の、慎重に作成された 700 のプロンプトで構成されています。このデータセットの目的は、テスト目的で包括的なプロンプトのセットを提供することです。研究者はこれらのプロンプトを利用して、GPT-4 応答などの独自のモデルから出力を生成し、そのパフォーマンスを評価できます。
詳細とデータへのアクセスについては、以下を参照してください。
私たちの? Hugging Face BeaverTails
データセットは、QA ペアを判断するための QA-Moderation モデルをトレーニングするために使用できます。
このパラダイムでは、QA ペアは、そのリスク中立性の程度、つまり、潜在的に有害な質問における潜在的なリスクが無害な回答によって軽減される程度に基づいて、有害または無害としてラベル付けされます。
examples
ディレクトリには、QA モデレーション モデルのトレーニング コードと評価コードが提供されています。また、Hugging Face に関する QA-Moderation モデルのトレーニングされた重みも提供します: PKU-Alignment/beaver-dam-7b
。
? Hugging Face SafeRLHF Datasets
を介してBeaverTails
が提供する? Hugging Face SafeRLHF Datasets
データセットを使用すると、以下の図に示すように、1 ラウンドの RLHF の後、モデルのパフォーマンスを損なうことなく LLM の毒性を効果的に軽減することができます。トレーニング コードは主にSafe-RLHF
コード リポジトリを利用します。 RLHF の詳細については、前述のライブラリを参照してください。
Alpaca-7B モデルでSafe-RLHF
パイプラインを利用した後、安全性優先のための大幅な分布の変更。
BeaverTails データセット ファミリが研究に役立つと思われる場合は、次の論文を引用してください。
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
このリポジトリは、Anthropic HH-RLHF、Safe-RLHF の恩恵を受けています。彼らの素晴らしい作品と、LLM 研究の民主化に向けた努力に感謝します。
BeaverTails データセットとそのファミリーは、CC BY-NC 4.0 ライセンスに基づいてリリースされています。トレーニング コードと QA モデレーション API は、Apache License 2.0 に基づいてリリースされます。