ที่เก็บนี้มีการใช้งานอย่างเป็นทางการสำหรับบทความของเราการสุ่มตัวอย่างเพิ่มมูลค่าสำหรับการจัดตำแหน่งและปรับแต่งรูปแบบภาษาส่วนบุคคล
การจัดรูปแบบภาษาขนาดใหญ่ (LLMS) เพื่อตอบสนองความต้องการของมนุษย์ที่แตกต่างกันการเรียนรู้ทักษะใหม่และพฤติกรรมที่เป็นอันตรายที่ไม่ได้รับการหาเงินเป็นปัญหาสำคัญ วิธีการค้นหาที่ใช้เช่นการค้นหาต้นไม้ที่ดีที่สุดของ N หรือ Monte-Carlo นั้นเป็นนักแสดง แต่ใช้งานไม่ได้สำหรับการปรับตัว LLM เนื่องจากค่าใช้จ่ายในการอนุมานสูง ในทางกลับกันการใช้การเรียนรู้การเสริมแรง (RL) สำหรับการปรับตัวนั้นมีประสิทธิภาพในการคำนวณ แต่ทำงานได้แย่ลงเนื่องจากความท้าทายในการเพิ่มประสิทธิภาพในการฝึกอบรมฟังก์ชั่นค่าและนโยบาย เรานำเสนอเฟรมเวิร์กใหม่สำหรับการเพิ่มประสิทธิภาพการให้รางวัล การสุ่มตัวอย่างเพิ่มมูลค่า (VAS) ซึ่งสามารถเพิ่มฟังก์ชั่นการให้รางวัลที่แตกต่างกันโดยใช้ข้อมูลจากตัวอย่าง LLM เริ่มต้นเท่านั้น VAS แก้ปัญหาสำหรับนโยบายการให้รางวัลที่ดีที่สุดโดยไม่ต้องฝึกอบรมนโยบายและฟังก์ชั่นมูลค่าทำให้การเพิ่มประสิทธิภาพมีความเสถียรสูงกว่าเส้นเขตแดนที่จัดตั้งขึ้นเช่น PPO และ DPO บนเกณฑ์มาตรฐานมาตรฐาน ต้นทุนการอนุมานที่ต่ำกว่า ซึ่งแตกต่างจากวิธี RL ที่มีอยู่ซึ่งต้องการการเปลี่ยนน้ำหนักของ LLM, VAS ไม่จำเป็นต้องเข้าถึงน้ำหนักของ LLM ที่ผ่านการฝึกอบรมมาแล้ว ดังนั้นจึงสามารถปรับ LLMS (เช่น CHATGPT) ซึ่งมีให้เฉพาะ API เท่านั้น นอกจากนี้อัลกอริทึมของเราปลดล็อกความสามารถใหม่ในการเขียนรางวัลหลายรางวัลและควบคุมขอบเขตของแต่ละอันในช่วงเวลาการใช้งานปูถนนไปข้างหน้าเพื่ออนาคตของ LLM ที่จัดแนวและเป็นส่วนตัว
ติดตั้ง trl
เวอร์ชันที่กำหนดเองของเรา:
git clone [email protected]:idanshen/trl.git
cd trl
python setup.py install
โคลนและติดตั้ง codebase:
git clone [email protected]:idanshen/Value-Augmented-Sampling.git
cd Value-Augmented-Sampling
pip install -e .
เราให้บริการสคริปต์สำหรับการฝึกอบรมโมเดล Tinyllama-1B เป็นตัวประมาณค่าของโมเดล LLAMA-2 7B ในชุดข้อมูล HH ของมานุษยวิทยา
ในการติดตามไปป์ไลน์ที่อธิบายไว้ในกระดาษเราได้จัดทำรุ่นเหล่านี้รุ่นที่ได้รับการดูแลอย่างดีภายใต้การดูแล:
python tinyllama_hh.py --log_with=wandb --ref_model_name hanseungwook/vas-llama-2-7b-hh-sft --model_name hanseungwook/vas-tiny-llama-1.1b-hh-sft
@inproceedings{
han2024value,
title={Value Augmented Sampling for Language Model Alignment and Personalization},
author={Seungwook Han and Idan Shenfeld and Akash Srivastava and Yoon Kim and Pulkit Agrawal},
booktitle={ICLR 2024 Workshop on Reliable and Responsible Foundation Models},
year={2024},
url={https://arxiv.org/abs/2405.06639}
}