[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails — это обширная коллекция наборов данных, специально разработанная для поддержки исследований по согласованию безопасности в моделях большого языка (LLM). В настоящее время коллекция состоит из трех наборов данных:
2023/07/10
: Мы объявляем об открытии исходного кода тренированных весов для нашей модели QA-Модерации на Hugging Face: PKU-Alignment/beaver-dam-7b. Эта модель была тщательно разработана с использованием нашего собственного набора классификационных данных. Кроме того, прилагаемый кодекс обучения также стал общедоступным.2023/06/29
Мы также открыли доступ к более масштабному набору данных BeaverTails. В настоящее время количество экземпляров достигло более 300k
, включая 301k
обучающих выборок и 33.4k
тестовых выборок. Более подробную информацию можно найти в нашем наборе данных Hugging Face PKU-Alignment/BeaverTails. Этот набор данных состоит из более чем 300 тысяч пар вопросов и ответов (QA), помеченных людьми, каждая из которых связана с определенными категориями вреда. Важно отметить, что одна пара QA может быть связана с более чем одной категорией. Набор данных включает следующие 14 категорий вреда:
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
Распределение этих 14 категорий в наборе данных показано на следующем рисунке:
Для получения дополнительной информации и доступа к данным см.:
Набор данных о предпочтениях состоит из более чем 300 тыс. данных экспертного сравнения. Каждая запись в этом наборе данных включает два ответа на вопрос, а также метаметки безопасности и предпочтения для обоих ответов с учетом их полезности и безвредности.
Конвейер аннотаций для этого набора данных показан на следующем изображении:
Для получения дополнительной информации и доступа к данным см.:
Наш набор оценочных данных состоит из 700 тщательно составленных подсказок, охватывающих 14 категорий вреда и по 50 для каждой категории. Цель этого набора данных — предоставить полный набор подсказок для целей тестирования. Исследователи могут использовать эти подсказки для получения результатов из своих собственных моделей, таких как ответы GPT-4, и оценивать свои результаты.
Для получения дополнительной информации и доступа к данным см.:
Наш ? Hugging Face BeaverTails
Набор данных ? Hugging Face BeaverTails
можно использовать для обучения модели QA-Moderation оценивать пары QA:
В этой парадигме пара QA помечается как вредная или безвредная в зависимости от степени ее нейтральности к риску, то есть степени, в которой потенциальные риски в потенциально вредном вопросе могут быть смягчены мягким ответом.
В нашем каталоге examples
мы предоставляем наш код обучения и оценки для модели QA-Модерации. Мы также предоставляем обученные веса нашей модели QA-Moderation на Hugging Face: PKU-Alignment/beaver-dam-7b
.
Через ? Hugging Face SafeRLHF Datasets
Набор ? Hugging Face SafeRLHF Datasets
, предоставленный BeaverTails
, после одного раунда RLHF позволяет эффективно снизить токсичность LLM без ущерба для производительности модели , как показано на рисунке ниже. В обучающем коде в основном используется репозиторий кода Safe-RLHF
. Для более подробной информации о специфике RLHF вы можете обратиться к упомянутой библиотеке.
Значительный сдвиг в распределении предпочтений по безопасности после использования конвейера Safe-RLHF
на модели Alpaca-7B.
![]() | ![]() |
Если вы найдете семейство наборов данных BeaverTails полезным в своих исследованиях, процитируйте следующую статью:
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
Этот репозиторий использует Anthropic HH-RLHF, Safe-RLHF. Спасибо за их замечательные работы и усилия по демократизации исследований LLM.
Набор данных BeaverTails и его семейство выпускаются под лицензией CC BY-NC 4.0. Обучающий код и API-интерфейсы QA-модерации выпускаются под лицензией Apache 2.0.