Vicuna LoRA RLHF PyTorch تنزيل - Vicuna LoRA RLHF PyTorch تنزيل كود المصدر

Vicuna LoRA RLHF PyTorch

شفرة المصدر الأخرى

1.0.0

تنزيل

فيكونا-لورا-RLHF-PyTorch

خط أنابيب كامل لتحسين Vicuna LLM مع LoRA وRLHF على الأجهزة الاستهلاكية

جدول المحتويات

فيكونا-لورا-RLHF-PyTorch
- جدول المحتويات
- إعداد البيئة
- قائمة المهام
- يجري
  - تحميل أوزان فيكونا
  - فينيتون تحت الإشراف
  - دمج محول PEFT في النموذج
  - نموذج مكافأة القطار
  - دمج محول المكافأة في النموذج
  - ضبط LM مع PPO
- المواضيع
- مرجع
- تاريخ النجوم
- هبة
- رخصة

إعداد البيئة

穷人卡：2080Ti 12G
torch==2.0.0
cuda==11.8

قائمة المهام

تحميل أوزان فيكونا
SFT: ضبط دقيق تحت الإشراف
دمج المحول في النموذج
RLHF
- نموذج مكافأة القطار
- ضبط مع RL

يجري

تحميل أوزان فيكونا

python apply_delta.py --base ' decapoda-research/llama-7b-hf ' --target ' ./weights/vicuna-7b ' --delta lmsys/vicuna-7b-delta-v1.1

فينيتون تحت الإشراف

تحقق من src/peft/utils/save_and_load.py أولاً، قم فقط بالتعليق على السطر 52 إلى

 # #to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or ("bias" in k))}

ثم تشغيل

python supervised_finetune.py --data_path ' ./data/merge_sample.json ' --output_path ' lora-Vicuna ' --model_path ' ./weights/vicuna-7b ' --eval_steps 200 --save_steps 200 --test_size 1

دمج محول PEFT في النموذج

تحقق من إصدار peft أولاً، إذا لم يكن peft 0.2.0، فيجب تثبيت peft==0.2.0

pip uninstall peft -y
pip install peft==0.2.0  # 0.3.0.dev0 has many errors

python merge_peft_adapter.py --model_name ' lora-Vicuna '

pip uninstall peft -y
pip install git+https://github.com/huggingface/peft.git # then comments peft/utis/save_and_load.py line 52.

نموذج مكافأة القطار

python train_reward_model.py --model_name ' ./weights/vicuna-7b ' --gradient_accumulation_steps 32 --per_device_train_batch_size 1 --train_subset 100 --eval_subset 10 --local_rank 0 --bf16 False

دمج محول المكافأة في النموذج

python merge_peft_adapter.py --model_name ./reward_model_vicuna-7b

ضبط LM مع PPO

python tuning_lm_with_rl.py --model_name ' ./lora-Vicuna-adapter-merged ' --reward_model_name ' ./reward_model_vicuna-7b-adapter-merged ' --adafactor False --tokenizer_name ' decapoda-research/llama-7b-hf ' --save_freq 100 --output_max_length 128 --batch_size 1 --gradient_accumulation_steps 1 --batched_gen True --ppo_epochs 1 --seed 0 --learning_rate 1.4e-5 --early_stopping True --output_dir ' ./tuning_llama_rl_checkpoints '

المواضيع

وزن نموذج Vicuna ليس موجودًا على مركز HuggingFace، لذلك تحتاج إلى التنزيل أولاً عن طريق تشغيل البرامج النصية application_delta.py.
قم بتنزيل SFT، قم بإلغاء تحديد ما إذا كان الأمر كذلك، src/peft/utils/save_and_load.py، قم بتنزيل السطر 52 #to_return = {k: v for k، v in to_return.items() if (("lora_" في k وadapter_name في k) أو ("bias" في k))}، 需要将其注释掉،否则在finetune完之后،保存不了 نموذج المحول شكرا جزيلا!
تم إنشاء PEFT، وتم إنشاء git باستخدام 0.3.0.dev0، وتم إنشاء merge_peft_adapter، وتم استبداله بـpeft==0.2.0 (0.3.0.dev0 没有 _get_submodules() 这个函数)
نموذج مكافأة القطار: خطأ القيمة: الوزن موجود على جهاز التعريف، نحتاج إلى value لوضعها على 0. محول المحول لقد تم إنشاء موقع github على شبكة الإنترنت، وهو ما يجعل من الممكن إنشاء محولات على github 8 قطع من الجعة يمكن أن تكون أفضل من أي وقت مضى.
لقد تم تصميم نموذج المكافأة من قبل شركة 2080Ti، ونموذج Finetune، ونموذج المكافأة.直接CUDA نفاد الذاكرة了،所以并未执行.