Unduhan Vicuna LoRA RLHF PyTorch - Unduh kode sumber Vicuna LoRA RLHF PyTorch

Vicuna LoRA RLHF PyTorch

Kode sumber lainnya

1.0.0

Unduh

Vicuna-LoRA-RLHF-PyTorch

saluran lengkap untuk menyempurnakan Vicuna LLM dengan LoRA dan RLHF pada perangkat keras konsumen

Daftar isi

Vicuna-LoRA-RLHF-PyTorch
- Daftar isi
- Pengaturan Lingkungan
- Daftar Tugas
- Berlari
  - Unduh Bobot Vicuna
  - Penyempurnaan yang Diawasi
  - Gabungkan adaptor PEFT ke dalam Model
  - Model Hadiah Kereta Api
  - Gabungkan adaptor Hadiah ke dalam Model
  - Menyetel LM dengan PPO
- Topik
- Referensi
- Bintang-Sejarah
- Sumbangan
- Lisensi

Pengaturan Lingkungan

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

Daftar Tugas

Berlari

Unduh Bobot Vicuna

python apply_delta.py --base ' decapoda-research/llama-7b-hf ' --target ' ./weights/vicuna-7b ' --delta lmsys/vicuna-7b-delta-v1.1

Penyempurnaan yang Diawasi

periksa src/peft/utils/save_and_load.py terlebih dahulu, Hanya beri komentar pada baris 52

 # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

lalu lari

python supervised_finetune.py --data_path ' ./data/merge_sample.json ' --output_path ' lora-Vicuna ' --model_path ' ./weights/vicuna-7b ' --eval_steps 200 --save_steps 200 --test_size 1

Gabungkan adaptor PEFT ke dalam Model

periksa versi peft terlebih dahulu, jika peft bukan 0.2.0, harus menginstal peft==0.2.0

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 has many errors

python merge_peft_adapter.py --model_name ' lora-Vicuna '

pip uninstall peft -y
pip install git+https://github.com/huggingface/peft.git # then comments peft/utis/save_and_load.py line 52.

Model Hadiah Kereta Api

python train_reward_model.py --model_name ' ./weights/vicuna-7b ' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

Gabungkan adaptor Hadiah ke dalam Model

python merge_peft_adapter.py --model_name ./reward_model_vicuna-7b

Menyetel LM dengan PPO

python tuning_lm_with_rl.py --model_name ' ./lora-Vicuna-adapter-merged ' --reward_model_name ' ./reward_model_vicuna-7b-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./tuning_llama_rl_checkpoints '

Topik

Bobot model Vicuna tidak ada di hub HuggingFace, jadi Anda perlu mengunduh terlebih dahulu dengan menjalankan skrip apply_delta.py.
Opsi SFT, opsi peft, src/peft/utils/save_and_load.py , dan baris 52 adalah pilihan yang tepat. #to_return = {k: v untuk k, v di to_return.items() if (("lora_" di k dan nama_adaptor di k) atau ("bias" di k))}，需要将其注释掉，否则在finetune model adaptor 完之后,保存不了的参数。切记！
PEFT , git , git , git , 0.3.0.dev0 ,merge_peft_adapter , peft==0.2.0 (0.3.0.dev0 menggunakan _get_submodules())
model hadiah kereta的时候会发生另一个问题： ValueError: bobot ada pada perangkat meta, kita perlu value untuk dimasukkan ke 0. 需要参看 transformator在github上的最新代码，我在发现这个问题的时候，隔天发现在transformer的github上8小时前才刚刚修复了这个问题。
最后一步,代码上基本是ok的,但是本人只有2080Ti的卡,加载完finetune model之后,再加载Reward model的时候直接CUDA kehabisan memori了,所以并未执行。