Baixar Vicuna LoRA RLHF PyTorch - Baixar código-fonte Vicuna LoRA RLHF PyTorch

Vicuna LoRA RLHF PyTorch

Outro código-fonte

1.0.0

Baixar

Vicuna-LoRA-RLHF-PyTorch

um pipeline completo para ajustar Vicuna LLM com LoRA e RLHF em hardware de consumidor

Índice

Vicuna-LoRA-RLHF-PyTorch
- Índice
- Configuração do ambiente
- Lista de tarefas
- Correr
  - Baixar pesos de vicunha
  - Ajuste fino supervisionado
  - Mesclar o adaptador PEFT no modelo
  - Modelo de recompensa de trem
  - Mesclar adaptador de recompensa no modelo
  - Ajustando LM com PPO
- Tópicos
- Referência
- História das Estrelas
- Doação
- Licença

Configuração do ambiente

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

Lista de tarefas

Correr

Baixar pesos de vicunha

python apply_delta.py --base ' decapoda-research/llama-7b-hf ' --target ' ./weights/vicuna-7b ' --delta lmsys/vicuna-7b-delta-v1.1

Ajuste fino supervisionado

verifique src/peft/utils/save_and_load.py primeiro, comente apenas a linha 52 para

 # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

então corra

python supervised_finetune.py --data_path ' ./data/merge_sample.json ' --output_path ' lora-Vicuna ' --model_path ' ./weights/vicuna-7b ' --eval_steps 200 --save_steps 200 --test_size 1

Mesclar o adaptador PEFT no modelo

verifique a versão do peft primeiro, se o peft não for 0.2.0, deve instalar o peft==0.2.0

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 has many errors

python merge_peft_adapter.py --model_name ' lora-Vicuna '

pip uninstall peft -y
pip install git+https://github.com/huggingface/peft.git # then comments peft/utis/save_and_load.py line 52.

Modelo de recompensa de trem

python train_reward_model.py --model_name ' ./weights/vicuna-7b ' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

Mesclar adaptador de recompensa no modelo

python merge_peft_adapter.py --model_name ./reward_model_vicuna-7b

Ajustando LM com PPO

python tuning_lm_with_rl.py --model_name ' ./lora-Vicuna-adapter-merged ' --reward_model_name ' ./reward_model_vicuna-7b-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./tuning_llama_rl_checkpoints '

Tópicos

O peso do modelo Vicuna não está no hub HuggingFace, então você precisa fazer o download primeiro executando os scripts apply_delta.py.
SFT之前,切记有个注意事项,需要检查下安装的peft代码, src/peft/utils/save_and_load.py , na linha 52 有这行代码#to_return = {k: v para k, v em to_return.items() if (("lora_" em k e adaptador_name em k) ou ("bias" em k))}，需要将其注释掉，否则在finetune完之后, 保存不了 modelo de adaptador的参数。切记！
PEFT的版本，目前从git上安装的是 0.3.0.dev0 版本，在merge_peft_adapter的时候有问题，需要切换到peft==0.2.0 (0.3.0.dev0 é definido como _get_submodules())
modelo de recompensa de trem的时候会发生另一个问题： ValueError: o peso está no metadispositivo, precisamos de um value para colocar em 0. 需要参看 transformador在github上的最新代码,我在发现这个问题的时候,隔天发现在transformer的github上8小时前才刚刚修复了这个问题。
直接CUDA sem memória了，所以并未执行。