Ini adalah upaya untuk membuat implementasi LFM open source, ini jelas bukan repositori resmi karena ini sumber tertutup. Saya menghubungkan makalah di bawah ini yang saya gunakan sebagai referensi. Temukan lebih banyak tentang model dari artikel asli
$ pip3 install -U lfm-torch
import torch
from lfm_torch . model import LFModel
from loguru import logger
# Instantiate and test the model
if __name__ == "__main__" :
batch_size , seq_length , embedding_dim = 32 , 128 , 512
token_dim , channel_dim , expert_dim , adapt_dim , num_experts = (
embedding_dim ,
embedding_dim ,
embedding_dim ,
128 ,
4 ,
)
model = LFModel (
token_dim , channel_dim , expert_dim , adapt_dim , num_experts
)
input_tensor = torch . randn (
batch_size , seq_length , embedding_dim
) # 3D text tensor
output = model ( input_tensor )
logger . info ( "Model forward pass complete." )
Arsitektur neural baru yang menggabungkan Liquid Neural Networks, mekanisme perhatian Transformer, dan Mixture of Experts (MoE) untuk meningkatkan pemrosesan adaptif dan pembaruan status dinamis. Sangat eksperimental dan awal! Kami sedang mengerjakan skrip pelatihan di sini. Itu masih membutuhkan tokenizer yang sebenarnya seperti tokenizer llama tetapi sudah sampai di sana. Jika Anda dapat membantu dalam hal ini, beri tahu saya.
diagram alur TB
subgraf "Transformator Cair"
Input["Urutan Input"] --> TL["Lapisan Transformator"]
subgraf "Lapisan Transformator"
arah TB
MHA["Perhatian Multi-Kepala"] --> LC["Sel Cair"]
LC --> MOE["Campuran Pakar"]
MOE --> LN["Norma Lapisan + Residu"]
akhir
subgraf "Detail Sel Cair"
arah LR
HS["Keadaan Tersembunyi"] --> WH["W_h Linear"]
Input2["Input"] --> WI["W_in Linear"]
WH --> Tambah((+))
WI --> Tambah
Tambahkan --> Bertindak["Aktivasi"]
Bertindak --> LN2["LayerNorm"]
LN2 --> LAKUKAN["Dropout"]
akhir
subgraf "Rincian KLH"
arah TB
Input3["Input"] --> Gerbang["Jaringan Gerbang"]
Input3 --> E1["Pakar 1"]
Input3 --> E2["Pakar 2"]
Input3 --> E3["Pakar N"]
Gerbang --> Sisir["Kombinasi Tertimbang"]
E1 --> Sisir
E2 --> Sisir
E3 --> Sisir
akhir
TL --> Keluaran["Urutan Keluaran"]
akhir
import torch
from loguru import logger
from lfm_torch . liquid_t_moe import LiquidTransformer
# Example usage
if __name__ == "__main__" :
seq_len , batch_size , embed_size = 10 , 2 , 64
num_heads , num_experts , expert_size , num_layers = 8 , 4 , 64 , 6
# Create the model
model = LiquidTransformer ( embed_size , num_heads , num_experts , expert_size , num_layers )
# Example input tensor
x = torch . randn ( seq_len , batch_size , embed_size )
# Forward pass
output = model ( x )
logger . info ( f"Model output shape: { output . shape } " )
Proyek ini dilisensikan di bawah Lisensi MIT. Lihat file LISENSI untuk detailnya.