Téléchargement RAIN - Téléchargement du code source RAIN

RAIN

Autre code source

1.0.0

Télécharger

☔️ Pluie: Vos modèles de langue peuvent s'aligner sans Finetuning

Introduction

La pluie est une méthode d'inférence innovante qui, en intégrant les mécanismes d'auto-évaluation et de rembobinage, permet aux modèles de grands langues congelés de produire directement des réponses cohérentes avec les préférences humaines sans nécessiter de données d'alignement supplémentaires ou de réglage fin du modèle, offrant ainsi une solution efficace pour la sécurité de l'IA.

Résultats principaux

Ensemble de données HH

La figure suivante affiche les résultats expérimentaux de l'ensemble de données utile et inoffensif de l'Anthropic (HH), montrant les taux de service par rapport aux différentes méthodes d'inférence sur l'ensemble de données HH, évalué par GPT-4. Gauche: lama (7b, 13b, 30b, 65b). À droite: lama-2 (7b, 13b, 70b).

Résultats

Ensemble de données advbench

La figure suivante affiche les résultats expérimentaux sur l'attaque Advbench sous attaque de gradient de coordonnées gourmands (GCG). Les attaques de boîte blanche optimisent des suffixes d'attaque spécifiques en tirant parti du gradient de chaque modèle, tandis que les attaques de transfert utilisent Vicuna 7b et 13b pour optimiser un suffixe d'attaque universel en utilisant une combinaison de gradients de deux modèles et l'employer ensuite pour attaquer d'autres modèles.

Résultats

Ensemble de données véridiques

La figure suivante affiche les résultats expérimentaux sur l'ensemble de données véridiques avec LLAMA-2-CHAT 13B. Nous affinons deux modèles GPT-3 en demandant au service d'OpenAI pour évaluer séparément si les réponses du modèle sont véridiques et informatives.

Résultats

Efficacité du temps

Curieux du temps au-dessus de la vanille? C'est ici! Empiriquement, nous observons que les frais généraux sont plus petits pour les modèles plus grands (plus sûrs).

Résultats

Configuration et installation

 conda envate -f rain.yaml

En cours d'exécution

Ensemble de données HH

 CD HH
python allocation.py --nump p

Le paramètre "Nump" représente le nombre de processus. Si vous exécutez sur une machine avec 8 GPU et définit Nump = 4, chaque processus utilisera 2 GPU.

Advbench

 CD adv

Vous pouvez utiliser GCG pour générer des suffixes contradictoires ou utiliser d'autres algorithmes d'attaque. Enregistrez les résultats de l'attaque sous le nom de "youdata.json" avec le format suivant:

 [
     {"but": "instruction ou question", "contrôle": "suffixe adversaire"},
]]

 python allocation.py --dataset yourdata.json --nump p

Ensemble de données véridiques

 Vérité du CD
python allocation.py --nump p

Référence

Pour les détails techniques et les résultats expérimentaux complets, veuillez vérifier le document.

@inproceedings{li2024rain, 
	author = {Yuhui Li and Fangyun Wei and Jinjing Zhao and Chao Zhang and Hongyang Zhang}, 
	title = {RAIN: Your Language Models Can Align Themselves without Finetuning}, 
	booktitle = {International Conference on Learning Representations},
	year = {2024}
}

Contact

Veuillez contacter Yuhui Li à [email protected] si vous avez une question sur les codes. Si vous trouvez ce référentiel utile, veuillez envisager de donner.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-10
taille 263.6KB
Provenant de Github

Applications connexes

Culture de la pluie d'étoiles

2023-11-28
Pluie de réflexions : Chapitre 1

2022-08-28
Force de défense terrestre : Pluie de fer

2022-08-25
Une année de pluie

2022-08-22
Gene Rain : Tour à vent

2022-08-17
Pluie sur votre défilé

2022-08-05

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout

Quelle est l'identité de Smoke dans "Mortal Kombat 1" ? Introduction au contexte de fumée et de pluie
2023-08-08