[ Paper
] [ ? SafeRLHF Datasets
] [ ? BeaverTails
] [ ? Beaver Evaluation
] [ ? BeaverDam-7B
] [ BibTeX
]
BeaverTails คือชุดข้อมูลที่กว้างขวางที่พัฒนาขึ้นโดยเฉพาะเพื่อสนับสนุนการวิจัยเกี่ยวกับการจัดตำแหน่งด้านความปลอดภัยในโมเดลภาษาขนาดใหญ่ (LLM) ปัจจุบันคอลเลกชันประกอบด้วยชุดข้อมูลสามชุด:
2023/07/10
: เราประกาศการเปิดซอร์สของตุ้มน้ำหนักที่ได้รับการฝึกอบรมสำหรับโมเดล QA-Moderation ของเราบน Hugging Face: PKU-Alignment/beaver-dam-7b แบบจำลองนี้ได้รับการพัฒนาอย่างพิถีพิถันโดยใช้ชุดข้อมูลการจำแนกประเภทที่เป็นกรรมสิทธิ์ของเรา นอกจากนี้ ยังมีการเผยแพร่รหัสการฝึกอบรมที่แนบมาให้ชุมชนทราบอย่างเปิดเผยอีกด้วย2023/06/29
เราได้เพิ่มชุดข้อมูล BeaverTails ขนาดใหญ่ขึ้นแบบโอเพ่นซอร์ส ขณะนี้มีอินสแตนซ์มากกว่า 300k
รายการ รวมถึงตัวอย่างการฝึกอบรม 301k
และตัวอย่างการทดสอบ 33.4k
รายละเอียดเพิ่มเติมสามารถอ้างอิงไปยังชุดข้อมูล Hugging Face ของเรา PKU-Alignment/BeaverTails ชุดข้อมูลนี้ประกอบด้วยคู่คำถาม-คำตอบ (QA) ที่กำกับโดยมนุษย์มากกว่า 300,000 คู่ ซึ่งแต่ละคู่เชื่อมโยงกับหมวดหมู่อันตรายเฉพาะ สิ่งสำคัญคือต้องทราบว่าคู่ QA คู่เดียวสามารถเชื่อมโยงกับหมวดหมู่ได้มากกว่าหนึ่งหมวดหมู่ ชุดข้อมูลประกอบด้วยหมวดหมู่อันตราย 14 ประเภทต่อไปนี้:
Animal Abuse
Child Abuse
Controversial Topics, Politics
Discrimination, Stereotype, Injustice
Drug Abuse, Weapons, Banned Substance
Financial Crime, Property Crime, Theft
Hate Speech, Offensive Language
Misinformation Regarding ethics, laws, and safety
Non-Violent Unethical Behavior
Privacy Violation
Self-Harm
Sexually Explicit, Adult Content
Terrorism, Organized Crime
Violence, Aiding and Abetting, Incitement
การกระจายของ 14 หมวดหมู่เหล่านี้ภายในชุดข้อมูลจะแสดงเป็นภาพในรูปต่อไปนี้:
สำหรับข้อมูลเพิ่มเติมและการเข้าถึงข้อมูล โปรดดูที่:
ชุดข้อมูลการตั้งค่าประกอบด้วยข้อมูลการเปรียบเทียบผู้เชี่ยวชาญมากกว่า 300,000 รายการ แต่ละรายการในชุดข้อมูลนี้ประกอบด้วยคำตอบ 2 ข้อสำหรับคำถาม พร้อมด้วยเมตาลาเบลด้านความปลอดภัยและการตั้งค่าสำหรับคำตอบทั้งสอง โดยคำนึงถึงความช่วยเหลือและไม่เป็นอันตราย
ไปป์ไลน์คำอธิบายประกอบสำหรับชุดข้อมูลนี้แสดงไว้ในรูปภาพต่อไปนี้:
สำหรับข้อมูลเพิ่มเติมและการเข้าถึงข้อมูล โปรดดูที่:
ชุดข้อมูลการประเมินของเราประกอบด้วยการแจ้งเตือน 700 รายการที่สร้างขึ้นอย่างพิถีพิถัน ซึ่งครอบคลุมหมวดหมู่อันตราย 14 หมวดหมู่ และ 50 รายการสำหรับแต่ละหมวดหมู่ วัตถุประสงค์ของชุดข้อมูลนี้คือเพื่อให้ชุดข้อความแจ้งที่ครอบคลุมสำหรับวัตถุประสงค์ในการทดสอบ นักวิจัยสามารถใช้คำแนะนำเหล่านี้เพื่อสร้างผลลัพธ์จากแบบจำลองของตนเอง เช่น การตอบสนอง GPT-4 และประเมินประสิทธิภาพ
สำหรับข้อมูลเพิ่มเติมและการเข้าถึงข้อมูล โปรดดูที่:
ของเรา ? Hugging Face BeaverTails
ชุดข้อมูล ? Hugging Face BeaverTails
สามารถใช้เพื่อฝึกโมเดล QA-Moderation เพื่อตัดสินคู่ QA:
ในกระบวนทัศน์นี้ คู่ QA จะถูกระบุว่าเป็นอันตรายหรือไม่เป็นอันตรายโดยพิจารณาจากขอบเขตความเป็นกลางของความเสี่ยง กล่าวคือ ระดับที่ความเสี่ยงที่อาจเกิดขึ้นในคำถามที่อาจเป็นอันตรายสามารถบรรเทาลงได้ด้วยการตอบสนองที่ไม่เป็นอันตราย
ในไดเร็กทอรี examples
ของเรา เราได้จัดเตรียมโค้ดการฝึกอบรมและการประเมินผลสำหรับโมเดล QA-Moderation นอกจากนี้เรายังจัดเตรียมตุ้มน้ำหนักที่ผ่านการฝึกอบรมของโมเดล QA-Moderation บน Hugging Face: PKU-Alignment/beaver-dam-7b
ผ่าน ? Hugging Face SafeRLHF Datasets
ชุดข้อมูลชุด ? Hugging Face SafeRLHF Datasets
ที่จัดทำโดย BeaverTails
หลังจาก RLHF หนึ่งรอบ จะสามารถ ลดความเป็นพิษของ LLM ได้อย่างมีประสิทธิภาพโดยไม่กระทบต่อประสิทธิภาพของแบบจำลอง ดังแสดงในรูปด้านล่าง รหัสการฝึกอบรมใช้ที่เก็บรหัส Safe-RLHF
เป็นหลัก สำหรับข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับข้อมูลเฉพาะของ RLHF คุณสามารถดูได้จากห้องสมุดดังกล่าว
การเปลี่ยนแปลงการกระจายสินค้าอย่างมีนัยสำคัญสำหรับการตั้งค่าด้านความปลอดภัยหลังจากใช้ไปป์ไลน์ Safe-RLHF
ในรุ่น Alpaca-7B
หากคุณพบว่ากลุ่มชุดข้อมูล BeaverTails มีประโยชน์ในการวิจัยของคุณ โปรดอ้างอิงเอกสารต่อไปนี้:
@article { beavertails ,
title = { BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset } ,
author = { Jiaming Ji and Mickel Liu and Juntao Dai and Xuehai Pan and Chi Zhang and Ce Bian and Chi Zhang and Ruiyang Sun and Yizhou Wang and Yaodong Yang } ,
journal = { arXiv preprint arXiv:2307.04657 } ,
year = { 2023 }
}
พื้นที่เก็บข้อมูลนี้ได้รับประโยชน์จาก Anthropic HH-RLHF, Safe-RLHF ขอขอบคุณสำหรับงานที่ยอดเยี่ยมและความพยายามในการทำให้การวิจัย LLM เป็นประชาธิปไตย
ชุดข้อมูล BeaverTails และครอบครัวได้รับการเผยแพร่ภายใต้ใบอนุญาต CC BY-NC 4.0 รหัสการฝึกอบรมและ API การควบคุม QA ได้รับการเผยแพร่ภายใต้ Apache License 2.0