Descarga de Alpaca LoRA RLHF PyTorch - Descarga de código fuente Alpaca LoRA RLHF PyTorch

Alpaca LoRA RLHF PyTorch

Código Fuente de IA

1.0.0

Descargar

Alpaca-LoRA-RLHF-PyTorch

un proceso completo para ajustar Alpaca LLM con LoRA y RLHF en hardware de consumo

Tabla de contenido

Alpaca-LoRA-RLHF-PyTorch
- Tabla de contenido
- Configuración del entorno
- Lista de tareas pendientes
- Correr
  - Ajuste supervisado
  - Fusionar el adaptador PEFT en el modelo
  - Modelo de recompensa del tren
    - Fusionar el adaptador de recompensa en el modelo
  - Sintonización de LM con PPO
- Notas
- Referencia
- Historia de las estrellas
- Donación
- Licencia

Configuración del entorno

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

Lista de tareas pendientes

Correr

Ajuste supervisado

 check src/peft/utils/save_and_load.py , Only comment the line 52 to # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

python supervised_finetune.py --base_model ' decapoda-research/llama-7b-hf ' --data_path ' yahma/alpaca-cleaned ' --output_dir ' ./lora-alpaca ' --num_epochs 1

Fusionar el adaptador PEFT en el modelo

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 raise many errors
python merge_peft_adapter.py --model_name ./alpaca-lora

Modelo de recompensa del tren

 python train_reward_model.py --model_name 'decapoda-research/llama-7b-hf' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

Fusionar el adaptador de recompensa en el modelo

python merge_peft_adapter.py --model_name ./alpaca-lora-reward-model

Sintonización de LM con PPO

python tuning_lm_with_rl.py --model_name ' ./lora-alpaca-adapter-merged ' --reward_model_name ' ./lora-alpaca-reward-model-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./checkpoints/tuning_llama_rl '

Notas

第一步SFT之前,切记有个注意事项,需要检查下安装的peft代码, src/peft/utils/save_and_load.py, en la línea 52有这行代码 #to_return = {k: v para k, v en to_return.items() if (("lora_" en k y nombre_adaptador en k) o ("sesgo" en k))}，需要将其注释掉，否则在finetune完之后，保存不了 modelo de adaptador 的参数。切记！
PEFT的版本,目前从git上安装的是 0.3.0.dev0 版本,在merge_peft_adapter的时候有问题,需要切换到peft==0.2.0 (0.3.0.dev0 actualizado _get_submodules()这个函数)
modelo de recompensa de tren的时候会发生另一个问题: ValueError: el peso está en el metadispositivo, necesitamos un value para poner en 0. 需要参看 transformador Transformador de github, github, github, github 8小时前才刚刚修复了这个问题.
最后一步,代码上基本是ok的,但是本人只有2080Ti的卡,加载完finetune model之后,再加载Modelo de recompensa的时候直接CUDA sin memoria了，所以并未执行。