[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails는 LLM(대형 언어 모델)의 안전 정렬에 대한 연구를 지원하기 위해 특별히 개발된 광범위한 데이터 세트 컬렉션입니다. 컬렉션은 현재 세 가지 데이터세트로 구성되어 있습니다.
2023/07/10
: Hugging Face: PKU-Alignment/beaver-dam-7b의 QA 조정 모델에 대해 훈련된 가중치의 오픈 소스를 발표합니다. 이 모델은 당사의 독점 분류 데이터 세트를 사용하여 꼼꼼하게 개발되었습니다. 또한, 함께 제공되는 교육 코드도 커뮤니티에 공개적으로 제공되었습니다.2023/06/29
우리는 BeaverTails의 대규모 데이터 세트를 추가로 오픈 소스화했습니다. 이제 301k
훈련 샘플과 33.4k
테스트 샘플을 포함하여 300k
개가 넘는 인스턴스에 도달했습니다. 자세한 내용은 Hugging Face 데이터 세트 PKU-Alignment/BeaverTails를 참조하세요. 이 데이터세트는 사람이 라벨을 붙인 300,000개가 넘는 QA(질의응답) 쌍으로 구성되어 있으며, 각 쌍은 특정 피해 범주와 연관되어 있습니다. 단일 QA 쌍이 둘 이상의 카테고리에 연결될 수 있다는 점에 유의하는 것이 중요합니다. 데이터 세트에는 다음과 같은 14가지 피해 범주가 포함됩니다.
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
데이터 세트 내 이러한 14개 범주의 분포는 다음 그림에 시각화되어 있습니다.
자세한 내용과 데이터에 대한 액세스는 다음을 참조하세요.
선호도 데이터세트는 300,000개 이상의 전문가 비교 데이터로 구성됩니다. 이 데이터 세트의 각 항목에는 질문에 대한 두 가지 답변이 포함되어 있으며 유용성과 무해성을 고려하여 두 답변에 대한 안전 메타 라벨 및 선호도가 포함되어 있습니다.
이 데이터세트의 주석 파이프라인은 다음 이미지에 나와 있습니다.
자세한 내용과 데이터에 대한 액세스는 다음을 참조하세요.
우리의 평가 데이터세트는 14개 피해 범주와 각 범주당 50개에 걸쳐 세심하게 제작된 700개의 프롬프트로 구성됩니다. 이 데이터세트의 목적은 테스트 목적으로 포괄적인 프롬프트 세트를 제공하는 것입니다. 연구원은 이러한 프롬프트를 활용하여 GPT-4 응답과 같은 자체 모델에서 출력을 생성하고 성과를 평가할 수 있습니다.
자세한 내용과 데이터에 대한 액세스는 다음을 참조하세요.
우리의 ? Hugging Face BeaverTails
데이터 세트는 QA 쌍을 판단하기 위한 QA 중재 모델을 훈련하는 데 사용할 수 있습니다.
이 패러다임에서 QA 쌍은 위험 중립성 범위, 즉 잠재적으로 유해한 질문의 잠재적 위험이 양성 응답으로 완화될 수 있는 정도에 따라 유해하거나 무해한 것으로 표시됩니다.
examples
디렉터리에서는 QA 조정 모델에 대한 교육 및 평가 코드를 제공합니다. 또한 Hugging Face: PKU-Alignment/beaver-dam-7b
에 대한 QA 조정 모델의 훈련된 가중치를 제공합니다.
통해 ? Hugging Face SafeRLHF Datasets
BeaverTails
에서 제공하는 ? Hugging Face SafeRLHF Datasets
데이터 세트는 RLHF 1라운드 후에 아래 그림과 같이 모델 성능을 저하시키지 않고 LLM의 독성을 효과적으로 줄이는 것이 가능합니다. 훈련 코드는 주로 Safe-RLHF
코드 저장소를 활용합니다. RLHF의 세부 사항에 대한 자세한 내용은 언급된 라이브러리를 참조하세요.
Alpaca-7B 모델에서 Safe-RLHF
파이프라인을 활용한 후 안전 선호도에 대한 배포가 크게 변경되었습니다.
BeaverTails 데이터 세트 계열이 연구에 유용하다고 생각되면 다음 논문을 인용해 주세요.
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
이 저장소는 Anthropic HH-RLHF, Safe-RLHF의 이점을 누리고 있습니다. LLM 연구를 민주화하기 위한 그들의 훌륭한 작업과 노력에 감사드립니다.
BeaverTails 데이터 세트 및 해당 제품군은 CC BY-NC 4.0 라이센스에 따라 릴리스됩니다. 훈련 코드와 QA 조정 API는 Apache License 2.0에 따라 출시되었습니다.