Value Augmented Sampling
1.0.0
该存储库包含我们论文的官方实施,对对齐和个性化语言模型的价值增强抽样。
将大型语言模型(LLM)结合起来,以满足不同的人类偏好,学习新技能和学习有害行为是一个重要问题。基于搜索的方法,例如最佳N或Monte-Carlo Tree搜索,是表现的,但由于其高推理成本而对LLM适应不切实际。另一方面,使用加固学习(RL)进行适应是计算上有效的,但由于在共同培训价值功能和策略方面的优化挑战而表现更糟。我们提出了一个新的框架,用于奖励优化,价值增强采样(VAS),该框架可以使用仅从初始冷冻LLM中采样的数据来最大化不同的奖励功能。 VAS解决了最佳的奖励最大化政策,而无需共同培训政策和价值功能,从而在标准的基准下,使优化稳定,优于PPO和DPO等优于PPO和DPO等优化的基线,并通过与128的最佳成果获得可比的结果推理成本较低。与需要更改LLM权重的现有RL方法不同,VAS不需要访问预训练的LLM的权重。因此,它甚至可以调整LLM(例如ChatGpt),仅作为API可用。此外,我们的算法释放了构成多个奖励并控制每个人在部署时间的范围的新能力,为未来的一致,个性化的LLMS铺平了道路。
安装我们的自定义版本的trl
:
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
克隆并安装代码库:
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
我们提供了一个用于培训Tinyllama-1b模型的脚本,作为Anthropic HH数据集上Llama-2 7b模型的价值估计器。
要遵循论文中描述的管道,我们提供了这些模型的监督微调版本:
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}