Dieses Repository enthält die offizielle Implementierung für unser Papier und die Wertvergrößerung der Stichproben für die Ausrichtung und Personalisierung von Sprachmodellen.
Das Ausrichten von großsprachigen Modellen (LLMs) auf unterschiedliche menschliche Vorlieben, das Erlernen neuer Fähigkeiten und das Verlassen von schädlichem Verhalten ist ein wichtiges Problem. Suchbasierte Methoden wie die Best-of-N- oder Monte-Carlo-Baumsuche sind leistungsfähig, aber aufgrund ihrer hohen Inferenzkosten für die LLM-Anpassung unpraktisch. Andererseits ist die Verwendung von Verstärkungslernen (RL) zur Anpassung rechnerisch effizient, wird jedoch aufgrund der Optimierungsprobleme bei der Zusammenarbeit der Wertfunktion und der Richtlinie schlechter. Wir präsentieren einen neuen Framework für die Belohnungsoptimierung, die VAST -Augmented -Probenahme (VAS), die unterschiedliche Belohnungsfunktionen unter Verwendung von Daten, die nur aus dem anfänglichen, gefrorenen LLM abgetastet wurden, maximieren können. VAS löst für die optimale Belohnungs-Maximierungspolitik, ohne die Richtlinie und die Wertfunktion zusammenzufassen, wodurch die Optimierung stabil, übertriebene Basislinien wie PPO und DPO auf Standard-Benchmarks und vergleichbare Ergebnisse zu dem besten 128 mit vergleichbarer Ergebnisse erzielt werden. niedrigere Inferenzkosten. Im Gegensatz zu vorhandenen RL-Methoden, bei denen die Gewichte des LLM geändert werden müssen, erfordern VAS keinen Zugriff auf die Gewichte des vorgebliebenen LLM. Somit kann es sogar LLMs (z. B. ChatGPT) anpassen, die nur als APIs verfügbar sind. Darüber hinaus setzt unser Algorithmus die neue Fähigkeit frei, mehrere Belohnungen zu komponieren und das Ausmaß der einzelnen während der Einsatzzeit zu kontrollieren und die Straße für die Zukunft der ausgerichteten, personalisierten LLMs zu ebnen.
Installieren Sie unsere benutzerdefinierte Version von trl
:
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
Klonen und installieren Sie die Codebasis:
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
Wir bieten ein Skript für das Training eines Tinyllama-1b-Modells als Wertschätzer eines Lama-2 7B-Modells auf dem HH-Datensatz von Anthropic.
Um der im Papier beschriebenen Pipeline zu folgen, stellen wir eine beaufsichtigte feinstimmige Version dieser Modelle an:
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}