Rain ist eine innovative Inferenzmethode, die durch Integration von Selbstbewertung und Rückspulenmechanismen gefrorene Großsprachenmodelle ermöglicht, um direkt mit menschlichen Vorlieben übereinstimmen, ohne dass zusätzliche Ausrichtungsdaten oder Modellfeinablagen erforderlich sind, wodurch eine effektive Lösung für die KI-Sicherheit angeboten wird.
Die folgende Abbildung zeigt die experimentellen Ergebnisse zum hilfreichen und harmlosen Datensatz (HH) des Anthropics und zeigt Hilfsbereitschaft im Vergleich zu Harmlosigkeit unterschiedliche Inferenzmethoden im HH-Datensatz, die von GPT-4 bewertet wurden. Links: Lama (7b, 13b, 30b, 65b). Rechts: LLAMA-2 (7B, 13B, 70B).
Die folgende Abbildung zeigt die experimentellen Ergebnisse auf dem Advbench unter Greedy Coordinate Gradient (GCG) -Angriff. White-Box-Angriffe optimieren spezifische Angriffsuffixe, indem sie den Gradienten jedes Modells nutzen, während Transferangriffe Vicuna 7b und 13b verwenden, um ein universelles Angriffssuffix unter Verwendung einer Kombination von zwei Gradienten von zwei Modellen zu optimieren und anschließend andere Modelle anzugreifen.
In der folgenden Abbildung werden die experimentellen Ergebnisse des Trutfulqa-Datensatzes mit LLAMA-2-CHAT 13B angezeigt. Wir stimmen zwei GPT-3-Modelle gut ab, indem wir den Dienst von OpenAI anfordern, separat zu beurteilen, ob die Antworten des Modells wahrheitsgemäß und informativ sind.
Neugierig über die Zeit über dem Kopf bis Vanille -Inferenz? Hier ist es! Empirisch stellen wir fest, dass der Overhead für größere (sicherere) Modelle kleiner ist.
conda env erzeugen -f rain.yaml
CD HH Python Allocation.py -Nump P.
Der Parameter "nump" repräsentiert die Anzahl der Prozesse. Wenn Sie auf einer Maschine mit 8 GPUs ausgeführt werden und NUMP = 4 einstellen, verwendet jeder Prozess 2 GPUs.
CD adv
Sie können GCG verwenden, um widersprüchliche Suffixe zu erzeugen oder andere Angriffsalgorithmen anzuwenden. Speichern Sie die Angriffsergebnisse als "yourData.json" mit dem folgenden Format:
[ {"Ziel": "Anweisung oder Frage", "Kontrollen": "kontroverses Suffix"}, ]
Python Allocation.py -Datenet yourData.json --Nump P.
CD Wahrheit Python Allocation.py -Nump P.
Für technische Details und vollständige experimentelle Ergebnisse überprüfen Sie bitte das Papier.
@inproceedings{li2024rain, author = {Yuhui Li and Fangyun Wei and Jinjing Zhao and Chao Zhang and Hongyang Zhang}, title = {RAIN: Your Language Models Can Align Themselves without Finetuning}, booktitle = {International Conference on Learning Representations}, year = {2024} }
Bitte kontaktieren Sie Yuhui Li unter [email protected], wenn Sie Fragen zu den Codes haben. Wenn Sie dieses Repository nützlich finden, sollten Sie das Geben erwägen.