RAIN Download - RAIN herunterladen

RAIN

Anderer Quellcode

1.0.0

Herunterladen

☔️ Regen: Ihre Sprachmodelle können sich ohne Finetuning ausrichten

Einführung

Rain ist eine innovative Inferenzmethode, die durch Integration von Selbstbewertung und Rückspulenmechanismen gefrorene Großsprachenmodelle ermöglicht, um direkt mit menschlichen Vorlieben übereinstimmen, ohne dass zusätzliche Ausrichtungsdaten oder Modellfeinablagen erforderlich sind, wodurch eine effektive Lösung für die KI-Sicherheit angeboten wird.

Hauptergebnisse

HH -Datensatz

Die folgende Abbildung zeigt die experimentellen Ergebnisse zum hilfreichen und harmlosen Datensatz (HH) des Anthropics und zeigt Hilfsbereitschaft im Vergleich zu Harmlosigkeit unterschiedliche Inferenzmethoden im HH-Datensatz, die von GPT-4 bewertet wurden. Links: Lama (7b, 13b, 30b, 65b). Rechts: LLAMA-2 (7B, 13B, 70B).

Ergebnisse

Advbench -Datensatz

Die folgende Abbildung zeigt die experimentellen Ergebnisse auf dem Advbench unter Greedy Coordinate Gradient (GCG) -Angriff. White-Box-Angriffe optimieren spezifische Angriffsuffixe, indem sie den Gradienten jedes Modells nutzen, während Transferangriffe Vicuna 7b und 13b verwenden, um ein universelles Angriffssuffix unter Verwendung einer Kombination von zwei Gradienten von zwei Modellen zu optimieren und anschließend andere Modelle anzugreifen.

Ergebnisse

Truthfulqa -Datensatz

In der folgenden Abbildung werden die experimentellen Ergebnisse des Trutfulqa-Datensatzes mit LLAMA-2-CHAT 13B angezeigt. Wir stimmen zwei GPT-3-Modelle gut ab, indem wir den Dienst von OpenAI anfordern, separat zu beurteilen, ob die Antworten des Modells wahrheitsgemäß und informativ sind.

Ergebnisse

Zeiteffizienz

Neugierig über die Zeit über dem Kopf bis Vanille -Inferenz? Hier ist es! Empirisch stellen wir fest, dass der Overhead für größere (sicherere) Modelle kleiner ist.

Ergebnisse

Setup & Installation

 conda env erzeugen -f rain.yaml

Läuft

HH -Datensatz

 CD HH
Python Allocation.py -Nump P.

Der Parameter "nump" repräsentiert die Anzahl der Prozesse. Wenn Sie auf einer Maschine mit 8 GPUs ausgeführt werden und NUMP = 4 einstellen, verwendet jeder Prozess 2 GPUs.

Advbench

 CD adv

Sie können GCG verwenden, um widersprüchliche Suffixe zu erzeugen oder andere Angriffsalgorithmen anzuwenden. Speichern Sie die Angriffsergebnisse als "yourData.json" mit dem folgenden Format:

 [
     {"Ziel": "Anweisung oder Frage", "Kontrollen": "kontroverses Suffix"},
]

 Python Allocation.py -Datenet yourData.json --Nump P.

Truthfulqa -Datensatz

 CD Wahrheit
Python Allocation.py -Nump P.

Referenz

Für technische Details und vollständige experimentelle Ergebnisse überprüfen Sie bitte das Papier.

@inproceedings{li2024rain, 
	author = {Yuhui Li and Fangyun Wei and Jinjing Zhao and Chao Zhang and Hongyang Zhang}, 
	title = {RAIN: Your Language Models Can Align Themselves without Finetuning}, 
	booktitle = {International Conference on Learning Representations},
	year = {2024}
}

Kontakt

Bitte kontaktieren Sie Yuhui Li unter [email protected], wenn Sie Fragen zu den Codes haben. Wenn Sie dieses Repository nützlich finden, sollten Sie das Geben erwägen.

Expandieren

Zusätzliche Informationen