Alpaca LoRA RLHF PyTorchダウンロード - Alpaca LoRA RLHF PyTorchソースコードのダウンロード

Alpaca LoRA RLHF PyTorch

AI ソースコード

1.0.0

ダウンロード

アルパカ-LoRA-RLHF-PyTorch

民生用ハードウェア上で LoRA および RLHF を使用して Alpaca LLM を微調整するための完全なパイプライン

アルパカ-LoRA-RLHF-PyTorch
- 目次
- 環境設定
- Todoリスト
- 走る
  - Finetune 監修
  - PEFT アダプターをモデルにマージする
  - 報酬モデルを訓練する
    - 報酬アダプターをモデルにマージ
  - PPO を使用した LM のチューニング
- 注意事項
- 参照
- スターの歴史
- 寄付
- ライセンス

環境設定

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

Todoリスト

走る

Finetune 監修

 check src/peft/utils/save_and_load.py , Only comment the line 52 to # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

python supervised_finetune.py --base_model ' decapoda-research/llama-7b-hf ' --data_path ' yahma/alpaca-cleaned ' --output_dir ' ./lora-alpaca ' --num_epochs 1

PEFT アダプターをモデルにマージする

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 raise many errors
python merge_peft_adapter.py --model_name ./alpaca-lora

報酬モデルを訓練する

 python train_reward_model.py --model_name 'decapoda-research/llama-7b-hf' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

報酬アダプターをモデルにマージ

python merge_peft_adapter.py --model_name ./alpaca-lora-reward-model

PPO を使用した LM のチューニング

python tuning_lm_with_rl.py --model_name ' ./lora-alpaca-adapter-merged ' --reward_model_name ' ./lora-alpaca-reward-model-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./checkpoints/tuning_llama_rl '

注意事項

最初の SFT の前に、注意事項があり、インストールが必要な peft 代コード、 src/peft/utils/save_and_load.py 、結果として行 52 にこの行代コードがあります #to_return = {k: v for k, v in to_return .items() if ((k は「lora_」、k はアダプタ名) または(k) の "bias")} を指定する必要がありますが、finetune が完了した後、アダプターモデルのパラメーターは保持されません。
PEFT のバージョン、現在 git 上にインストールされているのは 0.3.0.dev0 バージョンです。merge_peft_adapter の時点では問題があり、peft==0.2.0 (0.3.0.dev0 には _get_submodules() この関数がありません) に切り替える必要があります。
報酬モデルを訓練する時の天気会発生另一问题： ValueError: 重みはメタデバイス上にあります。0 に入れるvalueが必要です。必要に応じて参照してください。 Transformer の github で公開この問題は 8 時間前に修正されました。
最後に、コードは基本的に正常ですが、本人が 2080Ti のポートしか持っていないため、完微調整モデルを追加した後、報酬モデルを再ロードすると、CUDA がメモリ不足になるため、実行されません。