이 저장소에는 논문의 공식 구현, 언어 모델을 정렬하고 개인화하기위한 가치 증강 샘플링이 포함되어 있습니다.
다양한 인간 선호도를 충족시키기 위해 대형 언어 모델 (LLM)을 조정하고 새로운 기술을 배우고 유해한 행동을 배우는 것이 중요한 문제입니다. 최고의 N 또는 Monte-Carlo 트리 검색과 같은 검색 기반 방법은 수행하지만 높은 추론 비용으로 인해 LLM 적응에 비현실적입니다. 반면, 적응을 위해 강화 학습 (RL)을 사용하는 것은 계산적으로 효율적이지만 가치 기능과 정책을 공동 훈련하는 데있어 최적화 문제로 인해 더 나빠집니다. 우리는 보상 최적화, 값 증강 샘플링 (VAS)을위한 새로운 프레임 워크를 제시하며, 이는 최초의 Frozen LLM에서만 샘플링 된 데이터를 사용하여 다른 보상 기능을 최대화 할 수 있습니다. VAS는 정책과 가치 함수를 공동 트레이드하지 않고 최적의 보상 최대화 정책을 해결하고 PPO 및 DPO와 같은 기존 기준선을 표준 벤치 마크에서 활성화하고 최적화를 안정적으로 만들고 최상의 결과를 달성합니다. 낮은 추론 비용. LLM의 가중치를 변경 해야하는 기존 RL 방법과 달리 VAS는 미리 훈련 된 LLM의 가중치에 대한 액세스를 필요로하지 않습니다. 따라서 API로만 사용할 수있는 LLM (예 : Chatgpt)도 적응할 수도 있습니다. 또한, 우리의 알고리즘은 몇 가지 보상을 작성하고 배포 시간 동안 각각의 범위를 제어 할 수있는 새로운 기능을 잠금 해제하여 정렬 된 개인화 된 LLM의 미래를 위해 앞으로 도로를 열어줍니다.
trl
의 사용자 정의 버전을 설치하십시오.
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
복제 및 코드베이스를 설치하십시오.
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
우리는 Anthropic의 HH 데이터 세트에서 LLAMA-2 7B 모델의 값 추정기로서 Tinyllama-1B 모델을 훈련하기위한 스크립트를 제공합니다.
논문에 설명 된 파이프 라인을 따르기 위해, 우리는이 모델의 감독 된 미세 조정 버전을 제공합니다.
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}