PaLM アーキテクチャ上での RLHF (ヒューマン フィードバックによる強化学習) の実装。レトロ風に検索機能も追加するかも知れません
ChatGPT のようなものを公開して複製することに興味がある場合は、Laion への参加を検討してください。
後継となる可能性のあるもの: Direct Preference Optimization - このリポジトリ内のすべてのコードは、バイナリ クロス エントロピー損失、< 5 loc になります。報酬モデルと PPO についてはこれくらいです
トレーニング済みのモデルはありません。これは船と全体のマップのみです。高次元パラメータ空間の正しいポイントに到達するには、依然として数百万ドルの計算とデータが必要です。それでも、実際にその地点まで激動の時代を経て船を導くプロの船員(Stable Diffusionで有名なロビン・ロンバックのような)が必要です。
CarperAI は、ChatGPT のリリースに先立つ何ヶ月もの間、大規模言語モデル用の RLHF フレームワークに取り組んできました。
$ pip install palm-rlhf-pytorch
import torch
from palm_rlhf_pytorch import PaLM
palm = PaLM (
num_tokens = 20000 ,
dim = 512 ,
depth = 12 ,
flash_attn = True # https://arxiv.org/abs/2205.14135
). cuda ()
seq = torch . randint ( 0 , 20000 , ( 1 , 2048 )). cuda ()
loss = palm ( seq , return_loss = True )
loss . backward ()
# after much training, you can now generate sequences
generated = palm . generate ( 2048 ) # (1, 2048)
import torch
from palm_rlhf_pytorch import PaLM , RewardModel
palm = PaLM (
num_tokens = 20000 ,
dim = 512 ,
depth = 12 ,
causal = False
reward_model = RewardModel (
palm ,
num_binned_output = 5 # say rating from 1 to 5
). cuda ()
# mock data
seq = torch . randint ( 0 , 20000 , ( 1 , 1024 )). cuda ()
prompt_mask = torch . zeros ( 1 , 1024 ). bool (). cuda () # which part of the sequence is prompt, which part is response
labels = torch . randint ( 0 , 5 , ( 1 ,)). cuda ()
# train
loss = reward_model ( seq , prompt_mask = prompt_mask , labels = labels )
loss . backward ()
# after much training
reward = reward_model ( seq , prompt_mask = prompt_mask )
import torch
from palm_rlhf_pytorch import PaLM , RewardModel , RLHFTrainer
# load your pretrained palm
palm = PaLM (
num_tokens = 20000 ,
dim = 512 ,
depth = 12
). cuda ()
palm . load ( './path/to/pretrained/palm.pt' )
# load your pretrained reward model
reward_model = RewardModel (
palm ,
num_binned_output = 5
). cuda ()
reward_model . load ( './path/to/pretrained/reward_model.pt' )
# ready your list of prompts for reinforcement learning
prompts = torch . randint ( 0 , 256 , ( 50000 , 512 )). cuda () # 50k prompts
# pass it all to the trainer and train
trainer = RLHFTrainer (
palm = palm ,
reward_model = reward_model ,
prompt_token_ids = prompts
trainer . train ( num_episodes = 50000 )
# then, if it succeeded...
# generate say 10 samples and use the reward model to return the best one
answer = trainer . generate ( 2048 , prompt = prompts [ 0 ], num_samples = 10 ) # (<= 2048,)
非 LoRA ベースの微調整も可能
ハグフェイスアクセラレーションを追加し、wandb インストルメンテーションをテストします
RL 分野がまだ進歩していると仮定して、PPO 用の最新の SOTA が何かを知るために文献を検索してください。
PPO 内のメモリを memmapped numpy ファイルに書き込みます
事前トレーニングされている場合を想定して、アクターまたは批評家のいずれかでのみ最後から 2 番目の N レイヤーの微調整を許可します。
Letitia のビデオを考慮して、Sparrow からのいくつかの学習ポイントを組み込む
人間のフィードバックを収集するための django + htmx を使用したシンプルな Web インターフェイス
