triton transformer
تنفيذ محول ولكن بالكامل في تريتون. أنا جديد تمامًا على كود الشبكة العصبية ذات المستوى الأدنى، لذلك سيكون هذا المستودع في الغالب تجربة تعليمية، حيث يكون الهدف النهائي هو محول الفانيليا الذي يكون أسرع وأكثر كفاءة في التدريب.
طبقة إلى الأمام
Layernorm للأمام والخلف
Softmax للأمام والخلف
$ pip install triton-transformer
import torch
from triton_transformer import Transformer
model = Transformer (
num_tokens = 256 , # vocab size
max_seq_len = 1024 , # maximum sequence length
dim = 512 , # dimension
depth = 6 , # depth
heads = 8 , # number of heads
dim_head = 64 , # dimension per head
causal = True , # autoregressive or not
attn_dropout = 0.1 , # attention dropout
ff_dropout = 0.1 , # feedforward dropout
use_triton = True # use this to turn on / off triton
). cuda ()
x = torch . randint ( 0 , 256 , ( 1 , 1024 )). cuda ()
logits = model ( x ) # (1, 1024, 256)
للتدريب، ما عليك سوى تمرير التسميات التي تحتوي على labels
الكلمات الرئيسية للأمام، وسيتم إرجاع خسارة الإنتروبيا المتقاطعة إلى الدعامة الخلفية.
السابق. بيرت
import torch
from triton_transformer import Transformer
model = Transformer (
num_tokens = 20000 ,
max_seq_len = 512 ,
dim = 512 ,
depth = 12 ,
heads = 8 ,
dim_head = 64 ,
use_triton = True
). cuda ()
x = torch . randint ( 0 , 20000 , ( 1 , 512 )). cuda ()
labels = torch . randint ( 0 , 20000 , ( 1 , 512 )). cuda ()
mask = torch . ones ( 1 , 512 ). bool (). cuda ()
loss = model ( x , mask = mask , labels = labels )
loss . backward ()
$ python
