[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails ist eine umfangreiche Sammlung von Datensätzen, die speziell zur Unterstützung der Forschung zur Sicherheitsausrichtung in großen Sprachmodellen (LLMs) entwickelt wurden. Die Sammlung besteht derzeit aus drei Datensätzen:
2023/07/10
: Wir geben die Open-Sourcing der trainierten Gewichte für unser QA-Moderationsmodell auf Hugging Face bekannt: PKU-Alignment/beaver-dam-7b. Dieses Modell wurde sorgfältig unter Verwendung unseres proprietären Klassifizierungsdatensatzes entwickelt. Darüber hinaus wurde der zugehörige Schulungscode auch der Community offen zugänglich gemacht.2023/06/29
Wir haben einen größeren Datensatz von BeaverTails als Open-Source-Lösung bereitgestellt. Mittlerweile wurden über 300k
Instanzen erreicht, darunter 301k
Trainingsbeispiele und 33.4k
Testbeispiele. Weitere Einzelheiten finden Sie in unserem Hugging Face-Datensatz PKU-Alignment/BeaverTails. Dieser Datensatz besteht aus über 300.000 von Menschen markierten Frage-Antwort-Paaren (QA), die jeweils bestimmten Schadenskategorien zugeordnet sind. Es ist wichtig zu beachten, dass ein einzelnes QA-Paar mit mehr als einer Kategorie verknüpft sein kann. Der Datensatz umfasst die folgenden 14 Schadenskategorien:
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
Die Verteilung dieser 14 Kategorien innerhalb des Datensatzes ist in der folgenden Abbildung dargestellt:
Weitere Informationen und Zugang zu den Daten finden Sie unter:
Der Präferenzdatensatz besteht aus über 300.000 Expertenvergleichsdaten. Jeder Eintrag in diesem Datensatz enthält zwei Antworten auf eine Frage sowie Sicherheits-Metabezeichnungen und Präferenzen für beide Antworten unter Berücksichtigung ihrer Nützlichkeit und Unbedenklichkeit.
Die Annotationspipeline für diesen Datensatz ist in der folgenden Abbildung dargestellt:
Weitere Informationen und Zugang zu den Daten finden Sie unter:
Unser Bewertungsdatensatz besteht aus 700 sorgfältig ausgearbeiteten Eingabeaufforderungen, die sich über die 14 Schadenskategorien und 50 für jede Kategorie erstrecken. Der Zweck dieses Datensatzes besteht darin, einen umfassenden Satz von Eingabeaufforderungen für Testzwecke bereitzustellen. Forscher können diese Eingabeaufforderungen nutzen, um Ausgaben aus ihren eigenen Modellen zu generieren, beispielsweise GPT-4-Antworten, und ihre Leistungen zu bewerten.
Weitere Informationen und Zugang zu den Daten finden Sie unter:
Unser ? Hugging Face BeaverTails
-Datensatz kann verwendet werden, um ein QA-Moderationsmodell zu trainieren, um QA-Paare zu beurteilen:
In diesem Paradigma wird ein QA-Paar auf der Grundlage seines Risikoneutralitätsgrads als schädlich oder harmlos eingestuft, d. h. dem Grad, in dem potenzielle Risiken in einer potenziell schädlichen Frage durch eine harmlose Antwort gemindert werden können.
In unserem examples
stellen wir unseren Trainings- und Evaluierungscode für das QA-Moderationsmodell zur Verfügung. Wir stellen auch die trainierten Gewichte unseres QA-Moderationsmodells auf Hugging Face zur Verfügung: PKU-Alignment/beaver-dam-7b
.
Durch die ? Hugging Face SafeRLHF Datasets
-Datensatz, bereitgestellt von BeaverTails
. Nach einer Runde von RLHF ist es möglich, die Toxizität von LLMs effektiv zu reduzieren, ohne die Leistung des Modells zu beeinträchtigen , wie in der folgenden Abbildung dargestellt. Der Trainingscode nutzt hauptsächlich das Safe-RLHF
-Code-Repository. Ausführlichere Informationen zu den Besonderheiten von RLHF finden Sie in der genannten Bibliothek.
Signifikante Verschiebung der Verteilung der Sicherheitspräferenzen nach Verwendung der Safe-RLHF
Pipeline beim Alpaca-7B-Modell.
Wenn Sie die BeaverTails-Datensatzfamilie für Ihre Forschung nützlich finden, zitieren Sie bitte den folgenden Artikel:
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
Dieses Repository profitiert von Anthropic HH-RLHF und Safe-RLHF. Vielen Dank für ihre wunderbaren Arbeiten und ihre Bemühungen zur Demokratisierung der LLM-Forschung.
Der BeaverTails-Datensatz und seine Familie werden unter der CC BY-NC 4.0-Lizenz veröffentlicht. Der Trainingscode und die QA-Moderations-APIs werden unter der Apache-Lizenz 2.0 veröffentlicht.