يحتوي هذا المستودع على التنفيذ الرسمي لورقةنا ، وأخذ عينات من القيمة المعززة لمحاذاة نماذج اللغة وتخصيصها.
يمثل محاذاة نماذج اللغة الكبيرة (LLMS) لتلبية التفضيلات البشرية المختلفة ، وتعلم مهارات جديدة ، وإلغاء السلوك الضار مشكلة مهمة. الأساليب المستندة إلى البحث ، مثل Best-Of-N أو Monte-Carlo Tree Search ، هي أداء ، ولكنها غير عملية للتكيف LLM بسبب ارتفاع تكلفة الاستدلال. من ناحية أخرى ، فإن استخدام التعلم التعزيز (RL) للتكيف فعال من الناحية الحسابية ، ولكنه يؤدي أسوأ بسبب تحديات التحسين في تدريب وظيفة القيمة والسياسة. نقدم إطارًا جديدًا لتحسين المكافآت ، وأخذ عينات من القيمة المعززة (VAS) ، والتي يمكن أن تزيد من وظائف المكافآت المختلفة باستخدام البيانات التي تم أخذ عينات منها من LLM الأولي ، المجمدة. يحل VAS سياسة تكسير المكافآت المثلى دون المشاركة في تدريب السياسة ووظيفة القيمة ، مما يجعل التحسين مستقرًا ، يتفوق على خطوط الأساس المنشأة ، مثل PPO و DPO ، على المعايير القياسية ، وتحقيق نتائج مماثلة لأفضل 128 مع 128 انخفاض تكلفة الاستدلال. على عكس طرق RL الحالية التي تتطلب تغيير أوزان LLM ، لا تتطلب VAS الوصول إلى أوزان LLM المدربة مسبقًا. وبالتالي ، يمكنه حتى تكييف LLMS (على سبيل المثال ، ChatGPT) ، والتي تتوفر فقط كأبيات واجهات برمجة التطبيقات. بالإضافة إلى ذلك ، تفتح الخوارزمية لدينا القدرة الجديدة على تكوين العديد من المكافآت والتحكم في مدى كل واحد خلال فترة النشر ، مما يمهد الطريق إلى الأمام لمستقبل LLMs المحاذاة.
قم بتثبيت نسختنا المخصصة من trl
:
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
استنساخ وتثبيت قاعدة كود:
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
نحن نقدم نصًا لتدريب نموذج Tinyllama-1B كمقدر قيمة لنموذج LLAMA-2 7B على مجموعة بيانات HH البشرية.
لمتابعة خط الأنابيب الموصوف في الورقة ، نقدم إصدارًا دقيقًا من هذه النماذج:
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}