ดาวน์โหลด Vicuna LoRA RLHF PyTorch - ดาวน์โหลดซอร์สโค้ด Vicuna LoRA RLHF PyTorch

Vicuna LoRA RLHF PyTorch

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

วิคูนา-LoRA-RLHF-PyTorch

ไปป์ไลน์เต็มรูปแบบเพื่อปรับแต่ง Vicuna LLM ด้วย LoRA และ RLHF บนฮาร์ดแวร์สำหรับผู้บริโภค

สารบัญ

วิคูนา-LoRA-RLHF-PyTorch
- สารบัญ
- การตั้งค่าสภาพแวดล้อม
- รายการสิ่งที่ต้องทำ
- วิ่ง
  - ดาวน์โหลด Vicuna Weights.mq4
  - กำกับดูแล Finetune
  - รวมอะแดปเตอร์ PEFT เข้ากับโมเดล
  - โมเดลรางวัลรถไฟ
  - รวมอะแดปเตอร์รางวัลเข้ากับโมเดล
  - ปรับ LM ด้วย PPO
- หัวข้อ
- อ้างอิง
- สตาร์-ประวัติศาสตร์
- บริจาค
- ใบอนุญาต

การตั้งค่าสภาพแวดล้อม

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

รายการสิ่งที่ต้องทำ

ดาวน์โหลด Vicuna Weights.mq4
SFT: Finetune ที่มีการดูแล
รวมอะแดปเตอร์เข้ากับโมเดล
RLHF
- โมเดลรางวัลรถไฟ
- ปรับจูนด้วย RL

วิ่ง

ดาวน์โหลด Vicuna Weights.mq4

python apply_delta.py --base ' decapoda-research/llama-7b-hf ' --target ' ./weights/vicuna-7b ' --delta lmsys/vicuna-7b-delta-v1.1

กำกับดูแล Finetune

ตรวจสอบ src/peft/utils/save_and_load.py ก่อน แสดงความคิดเห็นเฉพาะบรรทัด 52 ถึง

 # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

แล้ววิ่ง

python supervised_finetune.py --data_path ' ./data/merge_sample.json ' --output_path ' lora-Vicuna ' --model_path ' ./weights/vicuna-7b ' --eval_steps 200 --save_steps 200 --test_size 1

รวมอะแดปเตอร์ PEFT เข้ากับโมเดล

ตรวจสอบเวอร์ชัน peft ก่อน หาก peft ไม่ใช่ 0.2.0 ควรติดตั้ง peft==0.2.0

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 has many errors

python merge_peft_adapter.py --model_name ' lora-Vicuna '

pip uninstall peft -y
pip install git+https://github.com/huggingface/peft.git # then comments peft/utis/save_and_load.py line 52.

โมเดลรางวัลรถไฟ

python train_reward_model.py --model_name ' ./weights/vicuna-7b ' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

รวมอะแดปเตอร์รางวัลเข้ากับโมเดล

python merge_peft_adapter.py --model_name ./reward_model_vicuna-7b

ปรับ LM ด้วย PPO

python tuning_lm_with_rl.py --model_name ' ./lora-Vicuna-adapter-merged ' --reward_model_name ' ./reward_model_vicuna-7b-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./tuning_llama_rl_checkpoints '

หัวข้อ

น้ำหนักโมเดล Vicuna ไม่ได้อยู่ในฮับ HuggingFace ดังนั้นคุณต้องดาวน์โหลดก่อนโดยเรียกใช้สคริปต์ Apply_delta.py
SFT 之前，切记有个注意事项，需要检查下安装的peft代码， src/peft/utils/save_and_load.py , 如果 line 52 有这行代码 #to_return = {k: v สำหรับ k, v ใน to_return.items() if (("lora_" ใน k และ adapter_name ใน k) หรือ ("bias" ใน k))}，需要将其注释掉，否则在finetune完之后，保存不了 รุ่นอะแดปเตอร์的参数。切记!
PEFT 版本，目前从git上安装的是 0.3.0.dev0 版本，在merge_peft_adapter的时候有问题，需要切换到peft==0.2.0 (0.3.0.dev0 มี _get_submodules()这个函数)
โมเดลรางวัลรถไฟของ 会发生另一个问题： ValueError: น้ำหนักอยู่ในอุปกรณ์เมตา เราต้องการ value ที่จะใส่ใน 0 หม้อแปลงไฟฟ้า需要参看在github上的最新代码，我在发现这个问题的时候，隔天发现在transformer的github上 8小时前才刚刚修复了这个问题。
最后一步，代码上基本是ok的，但是本人只有2080Ti的卡，加载完finetune model之后，再加载Reward model的时候直接CUDA out of หน่วยความจำ了，所以并未执行。