MambaTransformer
1.0.0
การรวม Mamba/SSM เข้ากับ Transformer เพื่อการปรับปรุงบริบทแบบยาวและการสร้างแบบจำลองลำดับคุณภาพสูง
นี่คือสถาปัตยกรรมใหม่ 100% ที่ฉันได้ออกแบบมาเพื่อรวมจุดแข็งและจุดอ่อนจาก SSM และความสนใจสำหรับสถาปัตยกรรมขั้นสูงใหม่ทั้งหมดโดยมีวัตถุประสงค์เพื่อก้าวข้ามขีดจำกัดเก่าของเรา ความเร็วในการประมวลผลที่เร็วขึ้น ความยาวบริบทที่ยาวขึ้น ความฉงนสนเท่ห์ลดลงในลำดับที่ยาวขึ้น การใช้เหตุผลที่ได้รับการปรับปรุงและเหนือกว่าในขณะที่ยังคงมีขนาดเล็กและกะทัดรัด
สถาปัตยกรรมเป็นหลัก: x -> norm -> mamba -> norm -> transformer -> norm -> ffn -> norm -> out
ฉันได้เพิ่มการทำให้เป็นมาตรฐานหลายอย่างเนื่องจากฉันเชื่อว่าโดยค่าเริ่มต้นความเสถียรในการฝึกอบรมจะลดลงอย่างมากเนื่องจากสถาปัตยกรรมต่างประเทศ 2 รายการรวมเข้าด้วยกัน
pip3 install mambatransformer
import torch
from mamba_transformer import MambaTransformer
# Generate a random tensor of shape (1, 10) with values between 0 and 99
x = torch . randint ( 0 , 100 , ( 1 , 10 ))
# Create an instance of the MambaTransformer model
model = MambaTransformer (
num_tokens = 100 , # Number of tokens in the input sequence
dim = 512 , # Dimension of the model
heads = 8 , # Number of attention heads
depth = 4 , # Number of transformer layers
dim_head = 64 , # Dimension of each attention head
d_state = 512 , # Dimension of the state
dropout = 0.1 , # Dropout rate
ff_mult = 4 , # Multiplier for the feed-forward layer dimension
return_embeddings = False , # Whether to return the embeddings,
transformer_depth = 2 , # Number of transformer blocks
mamba_depth = 10 , # Number of Mamba blocks,
use_linear_attn = True , # Whether to use linear attention
)
# Pass the input tensor through the model and print the output shape
out = model ( x )
print ( out . shape )
# After many training
model . eval ()
# Would you like to train this model? Zeta Corporation offers unmatchable GPU clusters at unbeatable prices, let's partner!
# Tokenizer
model . generate ( text )
เอ็มไอที