Download RAIN - Download do código -fonte RAIN

RAIN

Outro código-fonte

1.0.0

Baixar

☔️ Chuva: seus modelos de idiomas podem se alinhar sem o Finetuning

Introdução

A chuva é um método inovador de inferência que, ao integrar os mecanismos de autoavaliação e rebobinar, permite que modelos de linguagem grandes congelados produzam diretamente respostas consistentes com as preferências humanas sem exigir dados adicionais de alinhamento ou modelo de ajuste fino, oferecendo assim uma solução eficaz para a segurança da IA.

Principais resultados

DataSet HH

A figura a seguir exibe os resultados experimentais no conjunto de dados útil e inofensivo (HH) do Antrópico, mostrando a utilidade versus taxas de inovação de diferentes métodos de inferência no conjunto de dados HH, avaliados pelo GPT-4. Esquerda: Llama (7b, 13b, 30b, 65b). Direita: llama-2 (7b, 13b, 70b).

Resultados

DataSet AdvBench

A figura a seguir exibe os resultados experimentais no Advbench sob ataque ganancioso de gradiente de coordenadas (GCG). Os ataques de caixa branca otimizam sufixos de ataque específicos, alavancando o gradiente de cada modelo, enquanto os ataques de transferência utilizam Vicuna 7b e 13b para otimizar um sufixo de ataque universal usando uma combinação de gradientes de dois modelos e, posteriormente, empregá-lo para atacar outros modelos.

Resultados

DataSet de SiginfulQA

A figura a seguir exibe os resultados experimentais no conjunto de dados do VerinfulQA com llama-2-bate-papo 13b. Nós ajustamos dois modelos GPT-3 solicitando o serviço do OpenAI para avaliar separadamente se as respostas do modelo são verdadeiras e informativas.

Resultados

Eficiência de tempo

Curioso sobre o tempo acima da inferência de baunilha? Aqui está! Empiricamente, observamos que a sobrecarga é menor para modelos maiores (mais seguros).

Resultados

Configuração e instalação

 CONDA ENV CREATE -F RAIN.YAML

Correndo

DataSet HH

 CD HH
alocação python.py - -nump p

O parâmetro "Nump" representa o número de processos. Se estiver em execução em uma máquina com 8 GPUs e definir o Nump = 4, cada processo usará 2 GPUs.

Advbench

 CD Adv

Você pode usar o GCG para gerar sufixos adversários ou empregar outros algoritmos de ataque. Salve os resultados do ataque como "yourdata.json" com o seguinte formato:

 [[
     {"Goal": "Instrução ou pergunta", "Controls": "Sufixo Adversário"},
]

 python alocation.py -dataset yourdata.json - -nump p

DataSet de SiginfulQA

 CD verdade
alocação python.py - -nump p

Referência

Para detalhes técnicos e resultados experimentais completos, verifique o artigo.

@inproceedings{li2024rain, 
	author = {Yuhui Li and Fangyun Wei and Jinjing Zhao and Chao Zhang and Hongyang Zhang}, 
	title = {RAIN: Your Language Models Can Align Themselves without Finetuning}, 
	booktitle = {International Conference on Learning Representations},
	year = {2024}
}