GPT 内で複数の階層型予測コーディング モデルを導入するための単純なアイデアを実験します。とてもシンプルなので、うまくいかないかもしれません。しかし、繰り返しになりますが、ディープ ラーニングの進歩は、単純なアイデアの基盤の上に構築されています。試してみる価値はあります。
更新: 機能していると思いますか?
この独立した研究を実施するためのスポンサーとして StabilityAI
$ pip install simple-hierarchical-transformer
3 つの階層、すべて次のトークンを予測してサービスを提供します
import torch
from simple_hierarchical_transformer import HierarchicalTransformer
model = HierarchicalTransformer (
num_tokens = 20000 , # number of tokens
dim = 512 , # model dimensions
depth = 6 , # depth
dim_head = 64 , # dimension per attention head
heads = 8 , # attention heads
seq_len = 2048 , # sequence lengths
hierarchies = ( 1 , 2 , 8 ), # hierarchies - here we have 1x (like in a regular transformer), then 2x and 8x compressed hierarchical tokens that undergo their own transformer blocks. information is pooled into one hierarchy at each layer
window_sizes = ( 32 , 64 , None ) # local attention window sizes - the idea is that the higher hierarchies can pass distant information to the local one. None stands for full receptive field. Setting 0 would turn off attention at this hierarchy altogether (while token shift will still be in effect in each layer)
ids = torch . randint ( 0 , 20000 , ( 1 , 2048 ))
loss , _ = model ( ids , return_loss = True )
loss . backward ()
# after much training
logits = model ( ids )
# non-hierarchical transformer
model = HierarchicalTransformer (
num_tokens = 20000 ,
dim = 512 ,
depth = 8 ,
dim_head = 64 ,
heads = 8 ,
seq_len = 2048 ,
hierarchies = 1 , # implied 1 if not set
window_sizes = None # implied None (full sequence length) if not set
model = HierarchicalTransformer (
num_tokens = 256 ,
dim = ( 128 , 256 , 512 , 1024 ),
depth = 8 ,
seq_len = 1024 ,
use_flash_attn = True ,
ff_mult = ( 2 , 2 , 4 , 4 ),
dim_head = ( 16 , 32 , 64 , 64 ),
heads = ( 2 , 4 , 8 , 8 ),
hierarchies = ( 1 , 2 , 4 , 16 ),
hierarchical_stride = ( 1 , 1 , 1 , 8 ), # this would determine the stride when compressing, and when concatting the hierarchical tokens to the fine tokens, the past tokens will be repeated this amount of time. causality is not violated as using the trick from hourglass transformers where sequence is shifted by compression factor - 1. recommend sticking with 1 except for highly compressed hierarchies, as it becomes very uncompetitive with baseline and generations look off
window_sizes = ( 16 , 32 , 64 , None )
). cuda ()
# hierarchies
# 1x - dim 128 - attention (2 heads, 16 dim, receptive field 16)
# 2x - dim 256 - attention (4 heads, 32 dim, receptive field 32)
# 4x - dim 512 - attention (8 heads, 64 dim, receptive field 64)
# 8x - dim 1024 - attention (8 heads, 64 dim, receptive field of all)
2 つの並列パスに分岐し、1 つは階層トークン用、もう 1 つはプレーンな細かいトークン用です。
細かい + 階層的なトークンにおける局所的な注目が完全な注目のベースラインに近づく可能性があることを示す
単純な dsconv は 1 つの階層をマージするのに十分なようです
細かい階層とすべての階層の最大シーケンス長の半分にウィンドウ サイズを自動設定します。
相互エントロピー損失の前に、すべてのファイン + 階層トークンをプールするだけの効果を理解する - 大きな違いはありません
階層が上がるにつれて位置は重要でなくなる可能性があるため、将来的には細かいトークンに対して階層トークンを繰り返すことができます。ただし優先事項ではありません。最初に動作させる - hierarchical_stride
一部のレイヤーがトークン シフトのみに依存し、注意を払わないようにする
脳からのユニバーサル音声モデル論文で行われたように、ランダム投影 + vq - 階層予測コーディング用
すべての階層で使用するための単純なローカル アテンション ブロックを構築する
ローカル アテンション ライブラリにフラッシュ アテンションを追加
キャラクター レベル enwik8 で大きな損失なく 2 倍の圧縮を示すクリーンな wandb レポートを実行します。
階層 4 以降ではセルフ アテンション ベースのコンプレッサーを試してください。
