[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails adalah kumpulan kumpulan data ekstensif yang khusus dikembangkan untuk mendukung penelitian tentang penyelarasan keselamatan dalam model bahasa besar (LLM). Koleksinya saat ini terdiri dari tiga kumpulan data:
2023/07/10
: Kami mengumumkan open-source beban terlatih untuk model Moderasi QA kami di Hugging Face: PKU-Alignment/beaver-dam-7b. Model ini dikembangkan dengan cermat menggunakan Kumpulan Data Klasifikasi milik kami. Selain itu, kode pelatihan yang menyertainya juga telah tersedia secara terbuka untuk masyarakat.2023/06/29
Kami telah melakukan open source terhadap kumpulan data BeaverTails yang berskala lebih besar. Kini telah mencapai lebih dari 300k
instans, termasuk 301k
sampel pelatihan dan 33.4k
sampel pengujian, detail lebih lanjut dapat dilihat pada kumpulan data Hugging Face kami, PKU-Alignment/BeaverTails. Kumpulan data ini terdiri dari 300 ribu+ pasangan tanya jawab (QA) yang diberi label manusia, masing-masing terkait dengan kategori bahaya tertentu. Penting untuk dicatat bahwa satu pasangan QA dapat dihubungkan ke lebih dari satu kategori. Kumpulan data tersebut mencakup 14 kategori bahaya berikut:
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
Distribusi 14 kategori tersebut dalam dataset divisualisasikan pada gambar berikut:
Untuk informasi lebih lanjut dan akses ke data, silakan merujuk ke:
Kumpulan data preferensi terdiri dari 300 ribu+ data perbandingan ahli. Setiap entri dalam kumpulan data ini mencakup dua tanggapan terhadap sebuah pertanyaan, beserta meta-label keamanan dan preferensi untuk kedua tanggapan tersebut, dengan mempertimbangkan manfaat dan bahayanya.
Alur anotasi untuk kumpulan data ini digambarkan dalam gambar berikut:
Untuk informasi lebih lanjut dan akses ke data, silakan merujuk ke:
Kumpulan data evaluasi kami terdiri dari 700 petunjuk yang dibuat dengan cermat yang mencakup 14 kategori kerugian dan 50 untuk setiap kategori. Tujuan dari kumpulan data ini adalah untuk menyediakan serangkaian petunjuk yang komprehensif untuk tujuan pengujian. Peneliti dapat memanfaatkan petunjuk ini untuk menghasilkan keluaran dari model mereka sendiri, seperti respons GPT-4, dan mengevaluasi kinerjanya.
Untuk informasi lebih lanjut dan akses ke data, silakan merujuk ke:
Kita ? Hugging Face BeaverTails
Kumpulan data ? Hugging Face BeaverTails
dapat digunakan untuk melatih model Moderasi QA untuk menilai pasangan QA:
Dalam paradigma ini, pasangan QA diberi label sebagai berbahaya atau tidak berbahaya berdasarkan tingkat netralitas risikonya, yaitu sejauh mana potensi risiko dalam pertanyaan yang berpotensi membahayakan dapat dikurangi dengan respons yang baik.
Di direktori examples
kami, kami menyediakan kode pelatihan dan evaluasi untuk model Moderasi QA. Kami juga menyediakan beban terlatih model Moderasi QA kami pada Hugging Face: PKU-Alignment/beaver-dam-7b
.
Melalui ? Hugging Face SafeRLHF Datasets
Kumpulan ? Hugging Face SafeRLHF Datasets
yang disediakan oleh BeaverTails
, setelah satu putaran RLHF, toksisitas LLM dapat dikurangi secara efektif tanpa mengurangi performa model , seperti yang ditunjukkan pada gambar di bawah. Kode pelatihan terutama menggunakan repositori kode Safe-RLHF
. Untuk informasi lebih rinci tentang spesifikasi RLHF, Anda dapat merujuk ke perpustakaan yang disebutkan.
Pergeseran distribusi yang signifikan untuk preferensi keselamatan setelah memanfaatkan pipa Safe-RLHF
pada model Alpaca-7B.
Jika Anda merasa kumpulan data BeaverTails berguna dalam penelitian Anda, harap kutip makalah berikut:
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
Repositori ini mendapat manfaat dari Anthropic HH-RLHF, Safe-RLHF. Terima kasih atas karya luar biasa mereka dan upaya mereka untuk mendemokratisasi penelitian LLM.
Kumpulan data BeaverTails dan keluarganya dirilis di bawah Lisensi CC BY-NC 4.0. Kode pelatihan dan API moderasi QA dirilis di bawah Lisensi Apache 2.0.