Этот репозиторий содержит официальную реализацию для нашего документа, а также ценность дополненной выборки для выравнивания и персонализации языковых моделей.
Выровнять большие языковые модели (LLMS), чтобы удовлетворить различные человеческие предпочтения, изучать новые навыки и отучиться вредным поведением, является важной проблемой. Методы, основанные на поиске, такие как лучшие из N или Monte-Carlo Search, являются эффективными, но непрактичными для адаптации LLM из-за их высокой стоимости вывода. С другой стороны, использование обучения подкрепления (RL) для адаптации эффективно, но работает хуже из-за проблем оптимизации в совместном обучении функции стоимости и политики. Мы представляем новую структуру для оптимизации вознаграждения, увеличенной выборки значения (VAS), которая может максимизировать различные функции вознаграждения, используя данные, отобранные только из начального, замороженного LLM. VAS решает для оптимальной политики, максимизирующей вознаграждение без обучения политики и функции стоимости, делая стабильную оптимизацию, превосходя устоявшиеся базовые исход, такие как PPO и DPO, на стандартных тестах и достижение сопоставимых результатов с лучшими в 128 году с 128 более низкая стоимость вывода. В отличие от существующих методов RL, которые требуют изменения веса LLM, VAS не требует доступа к весам предварительно обученного LLM. Таким образом, он может даже адаптировать LLMS (например, CHATGPT), которые доступны только в виде API. Кроме того, наш алгоритм разблокирует новую способность сочинять несколько вознаграждений и контролировать степень каждого из них во время развертывания, проложив дорогу вперед для будущего выравниваемых персонализированных LLMS.
Установите нашу пользовательскую версию trl
:
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
Клонировать и установить кодовую базу:
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
Мы предоставляем сценарий для обучения модели Tinyllama-1B в качестве оценки значения модели Llama-2 7b в наборе данных HH Antropic.
Чтобы следить за трубопроводом, описанного в бумаге, мы предоставляем контролируемую версию этих моделей с контролируемым настроением:
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}