[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails est une vaste collection d'ensembles de données spécifiquement développés pour soutenir la recherche sur l'alignement de la sécurité dans les grands modèles de langage (LLM). La collection se compose actuellement de trois ensembles de données :
2023/07/10
: Nous annonçons l'open-source des poids entraînés pour notre modèle QA-Modération sur Hugging Face : PKU-Alignment/beaver-dam-7b. Ce modèle a été méticuleusement développé à l’aide de notre ensemble de données de classification exclusif. De plus, le code de formation qui l'accompagne a également été mis à la disposition de la communauté.2023/06/29
Nous avons en outre rendu open source un ensemble de données à plus grande échelle sur les queues de castor. Il a maintenant atteint plus de 300k
instances, dont 301k
échantillons d'entraînement et 33.4k
échantillons de test. Pour plus de détails, consultez notre ensemble de données Hugging Face PKU-Alignment/BeaverTails. Cet ensemble de données se compose de plus de 300 000 paires de questions-réponses (AQ) étiquetées par des humains, chacune associée à des catégories de préjudices spécifiques. Il est important de noter qu’une seule paire d’assurance qualité peut être liée à plusieurs catégories. L'ensemble de données comprend les 14 catégories de préjudices suivantes :
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
La répartition de ces 14 catégories au sein de l'ensemble de données est visualisée dans la figure suivante :
Pour plus d’informations et accéder aux données, veuillez vous référer à :
L'ensemble de données de préférences comprend plus de 300 000 données de comparaison d'experts. Chaque entrée de cet ensemble de données comprend deux réponses à une question, ainsi que des méta-étiquettes de sécurité et des préférences pour les deux réponses, en tenant compte de leur utilité et de leur innocuité.
Le pipeline d'annotations pour cet ensemble de données est représenté dans l'image suivante :
Pour plus d’informations et accéder aux données, veuillez vous référer à :
Notre ensemble de données d'évaluation se compose de 700 invites soigneusement conçues qui couvrent les 14 catégories de préjudice et 50 pour chaque catégorie. Le but de cet ensemble de données est de fournir un ensemble complet d'invites à des fins de test. Les chercheurs peuvent utiliser ces invites pour générer des résultats à partir de leurs propres modèles, tels que les réponses GPT-4, et évaluer leurs performances.
Pour plus d’informations et accéder aux données, veuillez vous référer à :
Notre ? Hugging Face BeaverTails
L'ensemble de données ? Hugging Face BeaverTails
peut être utilisé pour entraîner un modèle de modération QA afin de juger les paires QA :
Dans ce paradigme, une paire d’assurance qualité est qualifiée de nuisible ou inoffensive en fonction de son degré de neutralité face au risque, c’est-à-dire la mesure dans laquelle les risques potentiels d’une question potentiellement nuisible peuvent être atténués par une réponse bénigne.
Dans notre répertoire examples
, nous fournissons notre code de formation et d'évaluation pour le modèle QA-Modération. Nous fournissons également les poids entraînés de notre modèle QA-Moderation sur Hugging Face : PKU-Alignment/beaver-dam-7b
.
Grâce au ? Hugging Face SafeRLHF Datasets
Ensemble de données ? Hugging Face SafeRLHF Datasets
fourni par BeaverTails
, après un cycle de RLHF, il est possible de réduire efficacement la toxicité des LLM sans compromettre les performances du modèle , comme le montre la figure ci-dessous. Le code de formation utilise principalement le référentiel de codes Safe-RLHF
. Pour des informations plus détaillées sur les spécificités du RLHF, vous pouvez vous référer à la bibliothèque mentionnée.
Changement de distribution important pour les préférences de sécurité après l'utilisation du pipeline Safe-RLHF
sur le modèle Alpaca-7B.
Si vous trouvez la famille de jeux de données BeaverTails utile dans votre recherche, veuillez citer l'article suivant :
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
Ce référentiel bénéficie d'Anthropic HH-RLHF, Safe-RLHF. Merci pour leurs merveilleux travaux et leurs efforts pour démocratiser la recherche LLM.
L'ensemble de données BeaverTails et sa famille sont publiés sous la licence CC BY-NC 4.0. Le code de formation et les API de modération QA sont publiés sous licence Apache 2.0.