Vicuna LoRA RLHF PyTorch下载 - Vicuna LoRA RLHF PyTorch源码下载

Vicuna LoRA RLHF PyTorch

其他源码

1.0.0

下载

骆驼毛-LoRA-RLHF-PyTorch

在消费类硬件上使用 LoRA 和 RLHF 微调 Vicuna LLM 的完整流程

骆驼毛-LoRA-RLHF-PyTorch
- 目录
- 环境设置
- 待办事项列表
- 跑步
  - 下载骆驼体重
  - 监督微调
  - 将 PEFT 适配器合并到模型中
  - 训练奖励模型
  - 将奖励适配器合并到模型中
  - 使用 PPO 调整 LM
- 主题
- 参考
- 明星历史
- 捐款
- 执照

环境设置

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

待办事项列表

跑步

下载骆驼体重

python apply_delta.py --base ' decapoda-research/llama-7b-hf ' --target ' ./weights/vicuna-7b ' --delta lmsys/vicuna-7b-delta-v1.1

监督微调

首先检查src/peft/utils/save_and_load.py ，仅注释第 52 行

 # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

然后运行

python supervised_finetune.py --data_path ' ./data/merge_sample.json ' --output_path ' lora-Vicuna ' --model_path ' ./weights/vicuna-7b ' --eval_steps 200 --save_steps 200 --test_size 1

将 PEFT 适配器合并到模型中

首先检查peft版本，如果peft不是0.2.0，应该安装peft==0.2.0

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 has many errors

python merge_peft_adapter.py --model_name ' lora-Vicuna '

pip uninstall peft -y
pip install git+https://github.com/huggingface/peft.git # then comments peft/utis/save_and_load.py line 52.

训练奖励模型

python train_reward_model.py --model_name ' ./weights/vicuna-7b ' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

将奖励适配器合并到模型中

python merge_peft_adapter.py --model_name ./reward_model_vicuna-7b

使用 PPO 调整 LM

python tuning_lm_with_rl.py --model_name ' ./lora-Vicuna-adapter-merged ' --reward_model_name ' ./reward_model_vicuna-7b-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./tuning_llama_rl_checkpoints '

主题

Vicuna 模型权重不在 HuggingFace hub 上，因此您需要首先通过运行 apply_delta.py 脚本进行下载。
SFT之前，切记有一个注意事项，需要检查下安装的peft代码， src/peft/utils/save_and_load.py ，如果第52行有这行代码#to_return = {k: v for k, v in to_return.items( ) if (("lora_" in k and adapter_name in k) or ("bias" in k))}，需要将其注释掉，否则在finetune完成之后，保存不了适配器型号的参数。切记！
PEFT的版本，目前从git上安装的是0.3.0.dev0版本，在merge_peft_adapter的时候出现问题，需要切换到peft==0.2.0（0.3.0.dev0没有_get_submodules()这个函数）
训练奖励模型的时候会发生另一个问题： ValueError: Weight is on the meta device, we need a value to put in on 0. 需要参看 Transformer 在github上的最新代码，我在发现这个问题的时候，隔天发现在transformer的github上8小时前才刚刚修复了这个问题。
最后一步，代码上基本是ok的，但是本人只有2080Ti的卡，加载完成finetune模型之后，再加载Reward模型的时候直接CUDA内存不足了，所以自动执行。