Rain เป็นวิธีการอนุมานที่เป็นนวัตกรรมซึ่งโดยการรวมการประเมินตนเองและกลไกการย้อนกลับช่วยให้แบบจำลองภาษาขนาดใหญ่แช่แข็งสามารถสร้างการตอบสนองที่สอดคล้องกับการตั้งค่าของมนุษย์โดยตรงโดยไม่ต้องใช้ข้อมูลการจัดตำแหน่งเพิ่มเติมหรือการปรับแต่งแบบจำลอง
รูปต่อไปนี้แสดงผลการทดลองในชุดข้อมูลที่เป็นประโยชน์และไม่เป็นอันตราย (HH) ของมานุษยวิทยาแสดงให้เห็นถึงความช่วยเหลือและอัตราความไม่เป็นอันตรายของวิธีการอนุมานที่แตกต่างกันในชุดข้อมูล HH ประเมินโดย GPT-4 ซ้าย: Llama (7b, 13b, 30b, 65b) ขวา: LLAMA-2 (7B, 13B, 70B)
รูปต่อไปนี้แสดงผลการทดลองของ AdvBench ภายใต้การโจมตีแบบไล่ระดับสี (GCG) การโจมตีแบบกล่องสีขาวเพิ่มประสิทธิภาพการโจมตีที่เฉพาะเจาะจงโดยใช้ประโยชน์จากการไล่ระดับสีของแต่ละรุ่นในขณะที่การโจมตีการถ่ายโอนใช้ Vicuna 7B และ 13B เพื่อเพิ่มประสิทธิภาพการโจมตีสากลโดยใช้การรวมกันของการไล่ระดับสีสองรุ่นและต่อมาใช้มันเพื่อโจมตีรุ่นอื่น ๆ
รูปต่อไปนี้แสดงผลการทดลองในชุดข้อมูล TrustfulQa ด้วย Llama-2-Chat 13b เราปรับแต่งโมเดล GPT-3 สองแบบโดยการขอบริการจาก OpenAI เพื่อแยกการประเมินว่าคำตอบของโมเดลนั้นเป็นความจริงและให้ข้อมูลหรือไม่
อยากรู้เกี่ยวกับเวลาเหนือศีรษะกับการอนุมานวานิลลา? นี่คือ! เชิงประจักษ์เราสังเกตว่าค่าใช้จ่ายมีขนาดเล็กลงสำหรับรุ่นที่ใหญ่กว่า (ปลอดภัย)
conda env สร้าง -f rain.yaml
CD HH python allocation.py -nump p
พารามิเตอร์ "NUMP" แสดงจำนวนกระบวนการ หากทำงานบนเครื่องที่มี 8 GPU และการตั้งค่า NUMP = 4 แต่ละกระบวนการจะใช้ 2 GPU
CD Adv
คุณสามารถใช้ GCG เพื่อสร้างคำต่อท้ายหรือใช้อัลกอริทึมการโจมตีอื่น ๆ บันทึกผลการโจมตีเป็น "yourdata.json" ด้วยรูปแบบต่อไปนี้:
- {"เป้าหมาย": "คำสั่งหรือคำถาม", "ควบคุม": "คำต่อท้ายที่เป็นปฏิปักษ์"}, -
python allocation.py -dataset yourdata.json -nump p
ความจริงซีดี python allocation.py -nump p
สำหรับรายละเอียดทางเทคนิคและผลการทดลองเต็มรูปแบบโปรดตรวจสอบกระดาษ
@inproceedings{li2024rain, author = {Yuhui Li and Fangyun Wei and Jinjing Zhao and Chao Zhang and Hongyang Zhang}, title = {RAIN: Your Language Models Can Align Themselves without Finetuning}, booktitle = {International Conference on Learning Representations}, year = {2024} }
กรุณาติดต่อ yuhui li ที่ [email protected] หากคุณมีคำถามใด ๆ เกี่ยวกับรหัส หากคุณพบว่าพื้นที่เก็บข้อมูลนี้มีประโยชน์โปรดพิจารณาให้