LFM
1.0.0
これは、LFM のオープンソース実装を作成する試みです。これはクローズド ソースであるため、明らかに公式リポジトリではありません。私が参考として使用している論文を以下にリンクします。元の記事からモデルの詳細を確認してください
$ pip3 install -U lfm-torch
import torch
from lfm_torch . model import LFModel
from loguru import logger
# Instantiate and test the model
if __name__ == "__main__" :
batch_size , seq_length , embedding_dim = 32 , 128 , 512
token_dim , channel_dim , expert_dim , adapt_dim , num_experts = (
embedding_dim ,
embedding_dim ,
embedding_dim ,
128 ,
4 ,
)
model = LFModel (
token_dim , channel_dim , expert_dim , adapt_dim , num_experts
)
input_tensor = torch . randn (
batch_size , seq_length , embedding_dim
) # 3D text tensor
output = model ( input_tensor )
logger . info ( "Model forward pass complete." )
適応処理と動的状態更新を強化するために、リキッド ニューラル ネットワーク、トランスフォーマー アテンション メカニズム、および専門家混合 (MoE) を組み合わせた新しいニューラル アーキテクチャ。非常に実験的で早い段階でした!ここではトレーニング スクリプトを作成中です。まだラマのトークナイザーのような実際のトークナイザーが必要ですが、それは実現しつつあります。これに関してお手伝いできることがあれば、お知らせください。
フローチャートTB
サブグラフ「液体変圧器」
入力["入力シーケンス"] --> TL["トランスレイヤー"]
サブグラフ「トランス層」
TB方向
MHA["マルチヘッド アテンション"] --> LC["液体セル"]
LC --> MOE[「専門家の混合」]
MOE --> LN["レイヤーノルム + 残差"]
終わり
サブグラフ「液体セルの詳細」
LR方向
HS["隠れ状態"] --> WH["W_h リニア"]
Input2["入力"] --> WI["W_in Linear"]
WH --> 加算((+))
ウィスコンシン --> 追加
追加 --> Act["アクティベーション"]
アクト --> LN2["LayerNorm"]
LN2 --> DO[「ドロップアウト」]
終わり
サブグラフ「環境省詳細」
TB方向
Input3["入力"] --> ゲート["ゲートネットワーク"]
入力 3 --> E1["エキスパート 1"]
入力 3 --> E2[「エキスパート 2」]
入力 3 --> E3["エキスパート N"]
ゲート --> Comb["重み付けされた組み合わせ"]
E1 --> くし
E2 --> 櫛
E3 --> 櫛
終わり
TL --> 出力["出力シーケンス"]
終わり
import torch
from loguru import logger
from lfm_torch . liquid_t_moe import LiquidTransformer
# Example usage
if __name__ == "__main__" :
seq_len , batch_size , embed_size = 10 , 2 , 64
num_heads , num_experts , expert_size , num_layers = 8 , 4 , 64 , 6
# Create the model
model = LiquidTransformer ( embed_size , num_heads , num_experts , expert_size , num_layers )
# Example input tensor
x = torch . randn ( seq_len , batch_size , embed_size )
# Forward pass
output = model ( x )
logger . info ( f"Model output shape: { output . shape } " )
このプロジェクトは MIT ライセンスに基づいてライセンスされています。詳細については、LICENSE ファイルを参照してください。