LFM
1.0.0
هذه محاولة لتنفيذ LFMs مفتوح المصدر، ومن الواضح أن هذا ليس المستودع الرسمي لأنه مغلق المصدر. أقوم بربط الأوراق أدناه التي أستخدمها كمرجع. اكتشف المزيد عن النموذج من المقالة الأصلية
$ pip3 install -U lfm-torch
import torch
from lfm_torch . model import LFModel
from loguru import logger
# Instantiate and test the model
if __name__ == "__main__" :
batch_size , seq_length , embedding_dim = 32 , 128 , 512
token_dim , channel_dim , expert_dim , adapt_dim , num_experts = (
embedding_dim ,
embedding_dim ,
embedding_dim ,
128 ,
4 ,
)
model = LFModel (
token_dim , channel_dim , expert_dim , adapt_dim , num_experts
)
input_tensor = torch . randn (
batch_size , seq_length , embedding_dim
) # 3D text tensor
output = model ( input_tensor )
logger . info ( "Model forward pass complete." )
بنية عصبية جديدة تجمع بين الشبكات العصبية السائلة وآليات انتباه المحولات ومزيج الخبراء (MoE) لتحسين المعالجة التكيفية وتحديثات الحالة الديناميكية. تجريبي جدا ومبكر! نحن نعمل على نص تدريبي هنا. لا يزال يحتاج إلى رمز مميز فعلي مثل رمز اللاما ولكنه سيصل إلى هناك. إذا كنت تستطيع المساعدة في هذا فأخبرني.
مخطط انسيابي السل
الرسم البياني الفرعي "محول السائل"
الإدخال["تسلسل الإدخال"] --> TL["طبقة المحولات"]
رسم بياني فرعي "طبقة المحولات"
الاتجاه السل
MHA["انتباه متعدد الرؤوس"] --> LC["الخلية السائلة"]
LC --> MOE["خليط من الخبراء"]
MOE --> LN["معيار الطبقة + المتبقي"]
نهاية
رسم بياني فرعي "تفاصيل الخلية السائلة"
الاتجاه LR
HS["الحالة المخفية"] --> WH["W_h Linear"]
Input2["Input"] --> WI["W_in Linear"]
WH --> إضافة ((+))
وي --> إضافة
إضافة --> قانون["التنشيط"]
قانون --> LN2["LayerNorm"]
LN2 --> افعل["التسرب"]
نهاية
الرسم البياني الفرعي "تفاصيل وزارة التربية والتعليم"
الاتجاه السل
Input3["Input"] --> البوابة["Gating Network"]
الإدخال3 --> E1["الخبير 1"]
الإدخال3 --> E2["الخبير 2"]
الإدخال3 --> E3["الخبير N"]
البوابة --> المشط["المجموعة الموزونة"]
E1 --> مشط
E2 --> مشط
E3 --> مشط
نهاية
TL --> الإخراج["تسلسل الإخراج"]
نهاية
import torch
from loguru import logger
from lfm_torch . liquid_t_moe import LiquidTransformer
# Example usage
if __name__ == "__main__" :
seq_len , batch_size , embed_size = 10 , 2 , 64
num_heads , num_experts , expert_size , num_layers = 8 , 4 , 64 , 6
# Create the model
model = LiquidTransformer ( embed_size , num_heads , num_experts , expert_size , num_layers )
# Example input tensor
x = torch . randn ( seq_len , batch_size , embed_size )
# Forward pass
output = model ( x )
logger . info ( f"Model output shape: { output . shape } " )
هذا المشروع مرخص بموجب ترخيص MIT. راجع ملف الترخيص للحصول على التفاصيل.