Repositori ini berisi implementasi resmi untuk makalah kami, nilai augmented sampling untuk menyelaraskan dan mempersonalisasikan model bahasa.
Menyelaraskan model bahasa besar (LLM) untuk memenuhi preferensi manusia yang berbeda, mempelajari keterampilan baru, dan melepaskan perilaku berbahaya adalah masalah penting. Metode berbasis pencarian, seperti pencarian pohon Best-of-N atau Monte-Carlo, adalah pemain, tetapi tidak praktis untuk adaptasi LLM karena biaya inferensi yang tinggi. Di sisi lain, menggunakan Penguatan Penguatan (RL) untuk adaptasi secara komputasi efisien, tetapi berkinerja lebih buruk karena tantangan optimasi dalam pelatihan bersama fungsi nilai dan kebijakan. Kami menyajikan kerangka kerja baru untuk optimasi hadiah, nilai augmented sampling (VAS), yang dapat memaksimalkan fungsi hadiah yang berbeda menggunakan data yang diambil dari hanya LLM awal, beku. VAS memecahkan kebijakan memaksimalkan hadiah optimal tanpa melatih bersama kebijakan dan fungsi nilai, membuat optimasi stabil, mengungguli dasar yang ditetapkan, seperti PPO dan DPO, pada tolok ukur standar, dan mencapai hasil yang sebanding dengan terbaik-128 dengan biaya inferensi yang lebih rendah. Tidak seperti metode RL yang ada yang memerlukan mengubah bobot LLM, VAS tidak memerlukan akses ke bobot LLM pra-terlatih. Dengan demikian, ia bahkan dapat mengadaptasi LLMS (misalnya, chatgpt), yang hanya tersedia sebagai API. Selain itu, algoritma kami membuka kemampuan baru untuk menyusun beberapa hadiah dan mengendalikan tingkat masing -masing selama waktu penempatan, membuka jalan di depan untuk masa depan LLM yang selaras dan dipersonalisasi.
Instal trl
Versi Kustom kami:
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
Klon dan instal basis kode:
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
Kami memberikan skrip untuk melatih model Tinyllama-1B sebagai penaksir nilai model LLAMA-2 7B pada dataset HH Anthropic.
Untuk mengikuti pipa yang dijelaskan dalam makalah, kami memberikan versi yang disetel diawasi dari model -model ini:
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}