Alpaca LoRA RLHF PyTorch
1.0.0
ไปป์ไลน์เต็มรูปแบบเพื่อปรับแต่ง Alpaca LLM ด้วย LoRA และ RLHF บนฮาร์ดแวร์สำหรับผู้บริโภค
穷人卡:2080Ti 12G
torch==2.0.0
cuda==11.8
check src/peft/utils/save_and_load.py , Only comment the line 52 to # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}
python supervised_finetune.py --base_model ' decapoda-research/llama-7b-hf ' --data_path ' yahma/alpaca-cleaned ' --output_dir ' ./lora-alpaca ' --num_epochs 1
pip uninstall peft -y
pip install peft==0.2.0 # 0.3.0.dev0 raise many errors
python merge_peft_adapter.py --model_name ./alpaca-lora
python train_reward_model.py --model_name 'decapoda-research/llama-7b-hf' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False
python merge_peft_adapter.py --model_name ./alpaca-lora-reward-model
python tuning_lm_with_rl.py --model_name ' ./lora-alpaca-adapter-merged ' --reward_model_name ' ./lora-alpaca-reward-model-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./checkpoints/tuning_llama_rl '
value
ที่จะใส่ใน 0 หม้อแปลงไฟฟ้า需要参看在github上的最新代码,我在发现这个问题的时候,隔天发现在transformer的github上 8小时前才刚刚修复了这个问题。utils & templates หรือ alpaca-lora
ข้อกำหนด 主要是按foto [alpaca-lora](https://github.com/tloen/ alpaca-lora) 来配环境。
ถ้าโปรเจ็กต์นี้ช่วยลดเวลาในการพัฒนาได้ก็ให้กาแฟฉันได้แก้วนึงนะ :)
AliPay(支付宝)
WechatPay(微信)
MIT © คุน