[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
】【 ? BeaverDam-7B
] [ BibTeX
]
BeaverTails 是一个广泛的数据集集合,专门为支持大型语言模型 (LLM) 中的安全对齐研究而开发。该集合当前包含三个数据集:
2023/07/10
:我们宣布开源 Hugging Face 上 QA-Moderation 模型的训练权重:PKU-Alignment/beaver-dam-7b。该模型是使用我们专有的分类数据集精心开发的。此外,随附的培训代码也已向社区公开提供。2023/06/29
我们进一步开源了更大规模的 BeaverTails 数据集。目前已达到超过300k
实例,其中包括301k
训练样本和33.4k
测试样本,更多详细信息可以参考我们的 Hugging Face 数据集 PKU-Alignment/BeaverTails。 该数据集由 30 万多个人工标记的问答 (QA) 对组成,每个对都与特定的危害类别相关。值得注意的是,单个 QA 对可以链接到多个类别。该数据集包括以下 14 个危害类别:
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
下图直观地展示了这 14 个类别在数据集中的分布:
如需了解更多信息和访问数据,请参阅:
偏好数据集由 30 万+ 专家比较数据组成。该数据集中的每个条目都包含对问题的两个回答,以及两个回答的安全元标签和偏好,同时考虑到它们的有用性和无害性。
该数据集的注释管道如下图所示:
如需了解更多信息和访问数据,请参阅:
我们的评估数据集包含 700 个精心设计的提示,涵盖 14 个危害类别,每个类别有 50 个提示。该数据集的目的是为测试目的提供一套全面的提示。研究人员可以利用这些提示从他们自己的模型中生成输出,例如 GPT-4 响应,并评估他们的表现。
如需了解更多信息和访问数据,请参阅:
我们的? Hugging Face BeaverTails
数据集可用于训练 QA-Moderation 模型来判断 QA 对:
在这种范式中,QA 对根据其风险中性程度(即潜在有害问题中的潜在风险可以通过良性响应来减轻的程度)被标记为有害或无害。
在我们的examples
目录中,我们提供了 QA-Moderation 模型的训练和评估代码。我们还提供了 Hugging Face 上 QA-Moderation 模型的训练权重: PKU-Alignment/beaver-dam-7b
。
通过? Hugging Face SafeRLHF Datasets
由BeaverTails
提供的数据集,经过一轮RLHF后,可以在不影响模型性能的情况下有效降低LLM的毒性,如下图所示。训练代码主要利用Safe-RLHF
代码存储库。有关 RLHF 细节的更多详细信息,您可以参考提到的库。
在 Alpaca-7B 模型上使用Safe-RLHF
管道后,安全偏好的分布发生了显着变化。
如果您发现 BeaverTails 数据集系列对您的研究有用,请引用以下论文:
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
该存储库受益于 Anthropic HH-RLHF、Safe-RLHF。感谢他们的精彩工作以及他们为实现法学硕士研究民主化所做的努力。
BeaverTails 数据集及其系列是根据 CC BY-NC 4.0 许可证发布的。训练代码和 QA 审核 API 在 Apache License 2.0 下发布。