このリポジトリには、私たちの論文の公式の実装、言語モデルの調整とパーソナライズのための価値拡張サンプリングが含まれています。
大規模な言語モデル(LLM)を調整して、さまざまな人間の好みに応え、新しいスキルを学び、有害な行動を学習することは重要な問題です。 Best-of-nやMonte-Carloツリー検索などの検索ベースの方法はパフォーマンスがありますが、推論コストが高いため、LLM適応は非現実的です。一方、適応に強化学習(RL)を使用することは計算効率が良くなりますが、値関数とポリシーの共同トレーニングにおける最適化の課題により、パフォーマンスが悪化します。報酬の最適化、価値拡張サンプリング(VAS)の新しいフレームワークを提示します。これは、初期のフローズンLLMのみからサンプリングされたデータを使用して、異なる報酬関数を最大化できます。 VASは、ポリシーと値関数を共同訓練せずに最適な報酬最大化ポリシーを解決し、標準ベンチマークでPPOやDPOなどの最適化を安定させた確立されたベースラインを標準ベンチマーク上で、最適な結果を実現し、Best-of-128に同等の結果を達成します。推論コストの削減。 LLMの重みを変更する必要がある既存のRLメソッドとは異なり、VASでは、事前に訓練されたLLMの重量へのアクセスを必要としません。したがって、APIとしてのみ利用可能なLLMS(たとえば、ChatGpt)を適応することもできます。さらに、当社のアルゴリズムは、いくつかの報酬を作成し、展開時間中にそれぞれの範囲を制御する新しい機能を解き放ち、調整されたパーソナライズされたLLMの将来のために先の道を開きます。
trl
のカスタムバージョンをインストールします。
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
コードベースをクローンしてインストールします。
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
AnthropicのHHデータセットのLlama-2 7bモデルの値推定器としてTinyllama-1Bモデルをトレーニングするためのスクリプトを提供します。
論文で説明されているパイプラインに従うために、これらのモデルの監視付きの細かい調整バージョンを提供します。
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}