Vicuna LoRA RLHF PyTorch Télécharger - Vicuna LoRA RLHF PyTorch Téléchargement du code source

Vicuna LoRA RLHF PyTorch

Autre code source

1.0.0

Télécharger

Vicuna-LoRA-RLHF-PyTorch

un pipeline complet pour affiner Vicuna LLM avec LoRA et RLHF sur le matériel grand public

Table des matières

Vicuna-LoRA-RLHF-PyTorch
- Table des matières
- Configuration de l'environnement
- Liste de choses à faire
- Courir
  - Télécharger les poids de vigogne
  - Réglage fin supervisé
  - Fusionner l'adaptateur PEFT dans le modèle
  - Modèle de récompense de train
  - Fusionner l'adaptateur de récompense dans le modèle
  - Réglage de LM avec PPO
- Sujets
- Référence
- Histoire des étoiles
- Donation
- Licence

Configuration de l'environnement

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

Liste de choses à faire

Courir

Télécharger les poids de vigogne

python apply_delta.py --base ' decapoda-research/llama-7b-hf ' --target ' ./weights/vicuna-7b ' --delta lmsys/vicuna-7b-delta-v1.1

Réglage fin supervisé

vérifiez d'abord src/peft/utils/save_and_load.py , commentez uniquement la ligne 52 à

 # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

puis cours

python supervised_finetune.py --data_path ' ./data/merge_sample.json ' --output_path ' lora-Vicuna ' --model_path ' ./weights/vicuna-7b ' --eval_steps 200 --save_steps 200 --test_size 1

Fusionner l'adaptateur PEFT dans le modèle

vérifiez d'abord la version de peft, si peft n'est pas 0.2.0, vous devez installer peft==0.2.0

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 has many errors

python merge_peft_adapter.py --model_name ' lora-Vicuna '

pip uninstall peft -y
pip install git+https://github.com/huggingface/peft.git # then comments peft/utis/save_and_load.py line 52.

Modèle de récompense de train

python train_reward_model.py --model_name ' ./weights/vicuna-7b ' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

Fusionner l'adaptateur de récompense dans le modèle

python merge_peft_adapter.py --model_name ./reward_model_vicuna-7b

Réglage de LM avec PPO

python tuning_lm_with_rl.py --model_name ' ./lora-Vicuna-adapter-merged ' --reward_model_name ' ./reward_model_vicuna-7b-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./tuning_llama_rl_checkpoints '

Sujets

Le poids du modèle Vicuna n'est pas sur le hub HuggingFace, vous devez donc d'abord le télécharger en exécutant les scripts apply_delta.py.
SFT , il s'agit d'un fichier peft , src/peft/utils/save_and_load.py , en ligne 52 dans la ligne 52. #to_return = {k : v pour k, v dans to_return.items() if (("lora_" en k et adapter_name en k) ou ("bias" en k))}，需要将其注释掉，否则在finetune Modèle d'adaptateur 完之后，保存不了的参数。切记！
PEFT的本，目前从git上安装的是 0.3.0.dev0 版本，在merge_peft_adapter的时候有问题，需要切换到peft==0.2.0 (0.3.0.dev0 Il s'agit de _get_submodules() (pour plus de détails)
modèle value récompense de train Le transformateur github est github. 8小时前才刚刚修复了这个问题。
最后一步，代码上基本是ok的，但是本人只有2080Ti的卡，加载完finetune model之后，再加载Reward model的时候直接CUDA manque de mémoire了，所以并未执行。