RAIN هي طريقة استنتاج مبتكرة ، من خلال دمج التقييم الذاتي والعودة إلى آليات الترجيع ، تتيح نماذج اللغة الكبيرة المجمدة من إنتاج استجابات مباشرة بما يتوافق مع التفضيلات البشرية دون الحاجة إلى بيانات محاذاة إضافية أو صقل نماذج ، وبالتالي تقديم حل فعال لسلامة الذكاء الاصطناعي.
يعرض الشكل التالي النتائج التجريبية على مجموعة البيانات المفيدة وغير المؤذية للأنثروبور ، مما يدل على معدلات المساعدة مقابل معدلات الضرر لطرق الاستدلال المختلفة على مجموعة بيانات HH ، التي تم تقييمها بواسطة GPT-4. اليسار: لاما (7 ب ، 13 ب ، 30 ب ، 65 ب). اليمين: Llama-2 (7b ، 13b ، 70b).
يعرض الرقم التالي النتائج التجريبية على Advbench تحت هجوم تدرج الإحداثيات الجشع (GCG). تعمل هجمات الصناديق البيضاء على تحسين اللواحق الهجومية المحددة من خلال الاستفادة من التدرج من كل طراز ، في حين تستخدم هجمات النقل Vicuna 7B و 13B لتحسين لاحقة هجوم عالمية باستخدام مجموعة من تدرجات النموذجين ثم توظيفها لمهاجمة نماذج أخرى.
يعرض الرقم التالي النتائج التجريبية على مجموعة بيانات صدق مع LLAMA-2-Chat 13B. نحن نتحمل طرازين GPT-3 من خلال طلب الخدمة من Openai لتقييم بشكل منفصل ما إذا كانت ردود النموذج صادقة وغنية بالمعلومات.
فضولي حول الوقت النفقات العامة لاستنتاج الفانيليا؟ ها هو! من الناحية التجريبية ، نلاحظ أن النفقات العامة أصغر بالنسبة للنماذج الأكبر (الأكثر أمانًا).
كوندا بيئة خلق -F RAIN.YAML
CD HH Python تخصيص
تمثل المعلمة "Nump" عدد العمليات. إذا كان يعمل على جهاز مع 8 وحدات معالجة الرسومات وإعداد Nump = 4 ، فستستخدم كل عملية 2 وحدات معالجة الرسومات.
قرص مضغوط
يمكنك استخدام GCG لإنشاء اللواحق العدائية أو استخدام خوارزميات هجوم أخرى. احفظ نتائج الهجوم باسم "yourdata.json" مع التنسيق التالي:
[ {"الهدف": "التعليمات أو السؤال" ، "عناصر التحكم": "لاحقة الخصومة"} ، ]
Python تخصيص
حقيقة القرص المضغوط Python تخصيص
للحصول على التفاصيل الفنية والنتائج التجريبية الكاملة ، يرجى التحقق من الورقة.
@inproceedings{li2024rain, author = {Yuhui Li and Fangyun Wei and Jinjing Zhao and Chao Zhang and Hongyang Zhang}, title = {RAIN: Your Language Models Can Align Themselves without Finetuning}, booktitle = {International Conference on Learning Representations}, year = {2024} }
يرجى الاتصال بـ yuhui li على [email protected] إذا كان لديك أي سؤال على الرموز. إذا وجدت هذا المستودع مفيدًا ، فيرجى التفكير في العطاء.