Vicuna LoRA RLHF PyTorch下載 - Vicuna LoRA RLHF PyTorch原始碼下載

Vicuna LoRA RLHF PyTorch

其他源碼

1.0.0

下載

駱駝毛-LoRA-RLHF-PyTorch

在消費性硬體上使用 LoRA 和 RLHF 微調 Vicuna LLM 的完整流程

駱駝毛-LoRA-RLHF-PyTorch
- 目錄
- 環境設定
- 待辦事項列表
- 跑步
  - 下載駱駝體重
  - 監督微調
  - 將 PEFT 適配器合併到模型中
  - 訓練獎勵模型
  - 將獎勵適配器合併到模型中
  - 使用 PPO 調整 LM
- 主題
- 參考
- 明星歷史
- 捐款
- 執照

環境設定

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

待辦事項列表

跑步

下載駱駝體重

python apply_delta.py --base ' decapoda-research/llama-7b-hf ' --target ' ./weights/vicuna-7b ' --delta lmsys/vicuna-7b-delta-v1.1

監督微調

先檢查src/peft/utils/save_and_load.py ，僅註解第 52 行

 # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

然後運行

python supervised_finetune.py --data_path ' ./data/merge_sample.json ' --output_path ' lora-Vicuna ' --model_path ' ./weights/vicuna-7b ' --eval_steps 200 --save_steps 200 --test_size 1

將 PEFT 適配器合併到模型中

先檢查peft版本，如果peft不是0.2.0，應該安裝peft==0.2.0

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 has many errors

python merge_peft_adapter.py --model_name ' lora-Vicuna '

pip uninstall peft -y
pip install git+https://github.com/huggingface/peft.git # then comments peft/utis/save_and_load.py line 52.

訓練獎勵模型

python train_reward_model.py --model_name ' ./weights/vicuna-7b ' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

將獎勵適配器合併到模型中

python merge_peft_adapter.py --model_name ./reward_model_vicuna-7b

使用 PPO 調整 LM

python tuning_lm_with_rl.py --model_name ' ./lora-Vicuna-adapter-merged ' --reward_model_name ' ./reward_model_vicuna-7b-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./tuning_llama_rl_checkpoints '

主題

Vicuna 模型權重不在 HuggingFace hub 上，因此您需要先透過執行 apply_delta.py 腳本進行下載。
在SFT之前，請記住有一個注意事項，需要檢查下安裝的peft程式碼， src/peft/utils/save_and_load.py ，如果第52行有這行程式碼 #to_return = {k: v for k, v in to_return.items ( ) if (("lora_" in k and adapter_name in k) or ("bias" in k))}，需要將其註解掉，否則在finetune完成之後，保存不了適配器模型的參數。
PEFT的版本，目前從git安裝的是0.3.0.dev0版本，在merge_peft_adapter的時候出現問題，需要切換到peft==0.2.0（0.3.0.dev0沒有_get_submodules()這個函數）
訓練獎勵模型的時候會發生另一個問題： ValueError: Weight is on the meta device, we need a value to put in on 0. 需要參考 Transformer 在github上的最新代碼，我在發現這個問題的時候，隔天發現在transformer的github上8小時前才剛修復了這個問題。
最後一步，程式碼上基本上是ok的，但本人只有2080Ti的卡，載入完成finetune模型之後，再載入Reward模型的時候直接CUDA記憶體不足了，所以自動執行。