ttt lm pytorch Download - ttt lm pytorch CODE SOURCE Téléchargement

ttt lm pytorch

Autre code source

Télécharger

Apprendre à (apprendre au moment du test): RNN avec des états cachés expressifs

Papier | Jax CodeBase | Configuration | Démarrage rapide | Inférence Benchmark

Il s'agit de la mise en œuvre officielle du modèle Pytorch de l'apprentissage à (apprendre au moment du test): RNN avec des états cachés expressifs. Nous ne recommandons pas de formation avec cette base de code, car elle est écrite en pytorch pur sans aucune optimisation de systèmes, donc la formation sera lente, surtout lorsque la taille du lot par demande est petite.

Pour le code de formation ou pour reproduire les résultats de notre article, veuillez consulter notre base de code JAX. Pour les grains d'inférence, ou pour reproduire les repères de vitesse de notre article, veuillez consulter nos implémentations du noyau.

Abstrait

L'auto-attention fonctionne bien dans un contexte long mais a une complexité quadratique. Les couches RNN existantes ont une complexité linéaire, mais leur performance dans un contexte long est limitée par le pouvoir expressif de leur état caché. Nous proposons une nouvelle classe de couches de modélisation de séquence avec une complexité linéaire et un état caché expressif. L'idée clé est de faire de l'état caché un modèle d'apprentissage automatique lui-même, et la règle de mise à jour une étape d'apprentissage auto-supervisé.

Étant donné que l'état caché est mis à jour par la formation même sur les séquences de test, nos couches sont appelées couches de formation de test (TTT) . Nous considérons deux instanciations: TTT-linéaire et TTT-MLP, dont l'état caché est respectivement un modèle linéaire et un MLP à deux couches.

Configuration de l'environnement

pip install " transformers[torch] "

Démarrage rapide

Notre implémentation est basée sur des transformateurs HuggingFace. Vous pouvez utiliser le code suivant pour charger le modèle et générer du texte.

 from transformers import AutoTokenizer
from ttt import TTTForCausalLM , TTTConfig , TTT_STANDARD_CONFIGS

# Initializing a TTT ttt-1b style configuration
# configuration = TTTConfig(**TTT_STANDARD_CONFIGS['1b']) is equivalent to the following
configuration = TTTConfig ()

# Initializing a model from the ttt-1b style configuration
model = TTTForCausalLM ( configuration )
model . eval ()

# Accessing the model configuration
configuration = model . config

# Tokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'meta-llama/Llama-2-7b-hf' )

# Prefill
input_ids = tokenizer ( "Greeting from TTT!" , return_tensors = "pt" ). input_ids
logits = model ( input_ids = input_ids )
print ( logits )

# Decoding
out_ids = model . generate ( input_ids = input_ids , max_length = 50 )
out_str = tokenizer . batch_decode ( out_ids , skip_special_tokens = True )
print ( out_str )

Remarque: Il s'agit d'une implémentation naïve des couches TTT à des fins de tutoriel. Ce modèle peut être formé à l'aide de HuggingFace Accelerate ou de boucles de formation personnalisées. Nous avons publié notre noyau d'inférence plus rapide et sa référence de vitesse ici.

Développer

Informations supplémentaires

Version
Type Autre code source
Date de mise à jour 2025-02-06
taille 17.91KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Production de pages Web de confession en ligne LM Code source PHP version embellie version officielle

2022-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout