[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails es una extensa colección de conjuntos de datos desarrollados específicamente para respaldar la investigación sobre la alineación de la seguridad en modelos de lenguaje grandes (LLM). La colección consta actualmente de tres conjuntos de datos:
2023/07/10
: Anunciamos el código abierto de los pesos entrenados para nuestro modelo de moderación de calidad en Hugging Face: PKU-Alignment/beaver-dam-7b. Este modelo fue desarrollado meticulosamente utilizando nuestro conjunto de datos de clasificación patentado. Además, el código de formación adjunto también se ha puesto a disposición de la comunidad de forma abierta.2023/06/29
Además, hemos abierto un conjunto de datos a mayor escala de BeaverTails. Ahora ha alcanzado más de 300k
instancias, incluidas 301k
muestras de entrenamiento y 33.4k
muestras de prueba. Puede consultar más detalles en nuestro conjunto de datos de Hugging Face, PKU-Alignment/BeaverTails. Este conjunto de datos consta de más de 300.000 pares de preguntas y respuestas (QA) etiquetados por humanos, cada uno asociado con categorías de daños específicas. Es importante tener en cuenta que un único par de control de calidad puede vincularse a más de una categoría. El conjunto de datos incluye las siguientes 14 categorías de daños:
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
La distribución de estas 14 categorías dentro del conjunto de datos se visualiza en la siguiente figura:
Para obtener más información y acceder a los datos, consulte:
El conjunto de datos de preferencias consta de más de 300.000 datos de comparación de expertos. Cada entrada en este conjunto de datos incluye dos respuestas a una pregunta, junto con metaetiquetas de seguridad y preferencias para ambas respuestas, teniendo en cuenta su utilidad e inocuidad.
La canalización de anotaciones para este conjunto de datos se muestra en la siguiente imagen:
Para obtener más información y acceder a los datos, consulte:
Nuestro conjunto de datos de evaluación consta de 700 indicaciones cuidadosamente elaboradas que abarcan las 14 categorías de daños y 50 para cada categoría. El propósito de este conjunto de datos es proporcionar un conjunto completo de indicaciones para fines de prueba. Los investigadores pueden utilizar estas indicaciones para generar resultados a partir de sus propios modelos, como las respuestas de GPT-4, y evaluar su desempeño.
Para obtener más información y acceder a los datos, consulte:
Nuestro ? Hugging Face BeaverTails
El conjunto de datos ? Hugging Face BeaverTails
se puede utilizar para entrenar un modelo de moderación de control de calidad para juzgar pares de control de calidad:
En este paradigma, un par de control de calidad se etiqueta como dañino o inofensivo según su grado de neutralidad del riesgo, es decir, el grado en que los riesgos potenciales en una pregunta potencialmente dañina pueden mitigarse mediante una respuesta benigna.
En nuestro directorio examples
, proporcionamos nuestro código de capacitación y evaluación para el modelo de moderación de control de calidad. También proporcionamos los pesos entrenados de nuestro modelo de moderación de control de calidad en Hugging Face: PKU-Alignment/beaver-dam-7b
.
A través del ? Hugging Face SafeRLHF Datasets
proporcionado por BeaverTails
, después de una ronda de RLHF, es posible reducir efectivamente la toxicidad de los LLM sin comprometer el rendimiento del modelo , como se muestra en la siguiente figura. El código de capacitación utiliza principalmente el repositorio de códigos Safe-RLHF
. Para obtener información más detallada sobre los detalles de RLHF, puede consultar la biblioteca mencionada.
Cambio significativo en la distribución de preferencias de seguridad después de utilizar el oleoducto Safe-RLHF
en el modelo Alpaca-7B.
Si encuentra útil la familia de conjuntos de datos BeaverTails en su investigación, cite el siguiente artículo:
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
Este repositorio se beneficia de Anthropic HH-RLHF, Safe-RLHF. Gracias por sus maravillosos trabajos y sus esfuerzos por democratizar la investigación del LLM.
El conjunto de datos de BeaverTails y su familia se publican bajo la licencia CC BY-NC 4.0. El código de capacitación y las API de moderación de control de calidad se publican bajo la licencia Apache 2.0.