Value Augmented Sampling
1.0.0
該存儲庫包含我們論文的官方實施,對對齊和個性化語言模型的價值增強抽樣。
將大型語言模型(LLM)結合起來,以滿足不同的人類偏好,學習新技能和學習有害行為是一個重要問題。基於搜索的方法,例如最佳N或Monte-Carlo Tree搜索,是表現的,但由於其高推理成本而對LLM適應不切實際。另一方面,使用加固學習(RL)進行適應是計算上有效的,但由於在共同培訓價值功能和策略方面的優化挑戰而表現更糟。我們提出了一個新的框架,用於獎勵優化,價值增強採樣(VAS),該框架可以使用僅從初始冷凍LLM中採樣的數據來最大化不同的獎勵功能。 VAS解決了最佳的獎勵最大化政策,而無需共同培訓政策和價值功能,從而在標準的基準下,使優化穩定,優於PPO和DPO等優於PPO和DPO等優化的基線,並通過與128的最佳成果獲得可比的結果推理成本較低。與需要更改LLM權重的現有RL方法不同,VAS不需要訪問預訓練的LLM的權重。因此,它甚至可以調整LLM(例如ChatGpt),僅作為API可用。此外,我們的算法釋放了構成多個獎勵並控制每個人在部署時間的範圍的新能力,為未來的一致,個性化的LLMS鋪平了道路。
安裝我們的自定義版本的trl
:
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
克隆並安裝代碼庫:
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
我們提供了一個用於培訓Tinyllama-1b模型的腳本,作為Anthropic HH數據集上Llama-2 7b模型的價值估計器。
要遵循論文中描述的管道,我們提供了這些模型的監督微調版本:
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}