Téléchargement trax - Téléchargement du code source trax

Trax - Deep Learning avec code et vitesse clairs

Trax est une bibliothèque de bout en bout pour l'apprentissage en profondeur qui se concentre sur le code et la vitesse clairs. Il est activement utilisé et maintenu dans l'équipe Google Brain. Ce carnet (exécutez-le dans Colab) montre comment utiliser TRAX et où vous pouvez trouver plus d'informations.

Exécutez un transformateur pré-formé : créez un traducteur en quelques lignes de code
Caractéristiques et ressources : les documents API, où nous parler, comment ouvrir un problème et plus
Procédure pas à pas : comment fonctionne Trax, comment créer de nouveaux modèles et s'entraîner sur vos propres données

Nous saluons les contributions à Trax! Nous nous réjouissons des PR avec du code pour les nouveaux modèles et couches ainsi que des améliorations de notre code et de notre documentation. Nous aimons particulièrement les cahiers qui expliquent comment les modèles fonctionnent et montrons comment les utiliser pour résoudre des problèmes!

Voici quelques exemples de cahiers: -

L'API Trax.Data a expliqué : Explique certaines des principales fonctions de l'API trax.data
Nommé la reconnaissance des entités à l'aide de Reformer : utilise un ensemble de données Kaggle pour mettre en œuvre la reconnaissance des entités nommées à l'aide de l'architecture Reformiper.
Modèles n-gram profonds : la mise en œuvre de modèles n-gram profonds formés sur les travaux de Shakespeares

Configuration générale

Exécutez la cellule suivante (une fois) avant d'exécuter l'un des échantillons de code.

 import os
import numpy as np

!p ip install - q - U trax
import trax

1. Exécutez un transformateur pré-formé

Voici comment vous créez un traducteur anglais-allemand en quelques lignes de code:

Créer un modèle de transformateur dans Trax avec Trax.Models.transformateur
Initialisez-le à partir d'un fichier avec des poids pré-formés avec Model.init_from_file
Tokenize votre phrase d'entrée pour saisir le modèle avec trax.data.tokenise
décoder du transformateur avec trax.supervised.decoding.autoregressif_sample
Dé-tendre le résultat décodé pour obtenir la traduction avec trax.data.detokenise

 # Create a Transformer model.
# Pre-trained model config in gs://trax-ml/models/translation/ende_wmt32k.gin
model = trax . models . Transformer (
    input_vocab_size = 33300 ,
    d_model = 512 , d_ff = 2048 ,
    n_heads = 8 , n_encoder_layers = 6 , n_decoder_layers = 6 ,
    max_len = 2048 , mode = 'predict' )

# Initialize using pre-trained weights.
model . init_from_file ( 'gs://trax-ml/models/translation/ende_wmt32k.pkl.gz' ,
                     weights_only = True )

# Tokenize a sentence.
sentence = 'It is nice to learn new things today!'
tokenized = list ( trax . data . tokenize ( iter ([ sentence ]),  # Operates on streams.
                                    vocab_dir = 'gs://trax-ml/vocabs/' ,
                                    vocab_file = 'ende_32k.subword' ))[ 0 ]

# Decode from the Transformer.
tokenized = tokenized [ None , :]  # Add batch dimension.
tokenized_translation = trax . supervised . decoding . autoregressive_sample (
    model , tokenized , temperature = 0.0 )  # Higher temperature: more diverse results.

# De-tokenize,
tokenized_translation = tokenized_translation [ 0 ][: - 1 ]  # Remove batch and EOS.
translation = trax . data . detokenize ( tokenized_translation ,
                                   vocab_dir = 'gs://trax-ml/vocabs/' ,
                                   vocab_file = 'ende_32k.subword' )
print ( translation )

 Es ist schön, heute neue Dinge zu lernen!

2. Caractéristiques et ressources

Trax comprend des modèles de base (comme Resnet, LSTM, Transformer) et les algorithmes RL (comme Reinforce, A2C, PPO). Il est également activement utilisé pour la recherche et comprend de nouveaux modèles comme le réformateur et de nouveaux algorithmes RL comme AWR. Trax a des liaisons à un grand nombre d'ensembles de données d'apprentissage en profondeur, y compris des ensembles de données Tensor2tensor et TensorFlow.

Vous pouvez utiliser Trax soit comme bibliothèque à partir de vos propres scripts et cahiers Python, soit comme binaire du shell, ce qui peut être plus pratique pour la formation de grands modèles. Il s'exécute sans aucune modification des CPU, des GPU et des TPU.

Docs API
discuter avec nous
ouvrir un problème
Abonnez-vous à Trax-Discuss pour les nouvelles

3. Procédure pas à pas

Vous pouvez apprendre ici comment fonctionne Trax, comment créer de nouveaux modèles et comment les former sur vos propres données.

Tenseurs et mathématiques rapides

Les unités de base circulant à travers les modèles TRAX sont des tenseurs - des tableaux multidimensionnels, parfois également appelés tableaux Numpy, en raison du package le plus utilisé pour les opérations du tenseur - numpy . Vous devriez jeter un œil au Guide Numpy si vous ne savez pas comment fonctionner sur les tenseurs: Trax utilise également l'API Numpy pour cela.

Dans TRAX, nous voulons que les opérations Numpy fonctionnent très rapidement, utilisant des GPU et des TPU pour les accélérer. Nous voulons également calculer automatiquement les gradients de fonctions sur les tenseurs. Cela se fait dans le package trax.fastmath grâce à ses backends - Jax et Tensorflow Numpy.

 from trax . fastmath import numpy as fastnp
trax . fastmath . use_backend ( 'jax' )  # Can be 'jax' or 'tensorflow-numpy'.

matrix  = fastnp . array ([[ 1 , 2 , 3 ], [ 4 , 5 , 6 ], [ 7 , 8 , 9 ]])
print ( f'matrix = n { matrix } ' )
vector = fastnp . ones ( 3 )
print ( f'vector = { vector } ' )
product = fastnp . dot ( vector , matrix )
print ( f'product = { product } ' )
tanh = fastnp . tanh ( product )
print ( f'tanh(product) = { tanh } ' )

 matrix = 
[[1 2 3]
 [4 5 6]
 [7 8 9]]
vector = [1. 1. 1.]
product = [12. 15. 18.]
tanh(product) = [0.99999994 0.99999994 0.99999994]

Les gradients peuvent être calculés à l'aide de trax.fastmath.grad .

 def f ( x ):
  return 2.0 * x * x

grad_f = trax . fastmath . grad ( f )

print ( f'grad(2x^2) at 1 = { grad_f ( 1.0 ) } ' )

 grad(2x^2) at 1 = 4.0

Couches

Les couches sont des éléments de base des modèles TRAX. Vous apprendrez tout sur eux dans l'intro des couches, mais pour l'instant, jetez un œil à la mise en œuvre d'une couche de trax de base, Embedding :

 class Embedding ( base . Layer ):
  """Trainable layer that maps discrete tokens/IDs to vectors."""

  def __init__ ( self ,
               vocab_size ,
               d_feature ,
               kernel_initializer = init . RandomNormalInitializer ( 1.0 )):
    """Returns an embedding layer with given vocabulary size and vector size.

    Args:
      vocab_size: Size of the input vocabulary. The layer will assign a unique
          vector to each ID in `range(vocab_size)`.
      d_feature: Dimensionality/depth of the output vectors.
      kernel_initializer: Function that creates (random) initial vectors for
          the embedding.
    """
    super (). __init__ ( name = f'Embedding_ { vocab_size } _ { d_feature } ' )
    self . _d_feature = d_feature  # feature dimensionality
    self . _vocab_size = vocab_size
    self . _kernel_initializer = kernel_initializer

  def forward ( self , x ):
    """Returns embedding vectors corresponding to input token IDs.

    Args:
      x: Tensor of token IDs.

    Returns:
      Tensor of embedding vectors.
    """
    return jnp . take ( self . weights , x , axis = 0 , mode = 'clip' )

  def init_weights_and_state ( self , input_signature ):
    """Returns tensor of newly initialized embedding vectors."""
    del input_signature
    shape_w = ( self . _vocab_size , self . _d_feature )
    w = self . _kernel_initializer ( shape_w , self . rng )
    self . weights = w

Les couches avec des poids entraînables comme Embedding doivent être initialisées avec la signature (forme et dtype) de l'entrée, puis peuvent être exécutées en les appelant.

 from trax import layers as tl

# Create an input tensor x.
x = np . arange ( 15 )
print ( f'x = { x } ' )

# Create the embedding layer.
embedding = tl . Embedding ( vocab_size = 20 , d_feature = 32 )
embedding . init ( trax . shapes . signature ( x ))

# Run the layer -- y = embedding(x).
y = embedding ( x )
print ( f'shape of y = { y . shape } ' )

 x = [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
shape of y = (15, 32)

Modèles

Les modèles de Trax sont construits à partir de couches le plus souvent en utilisant les combinateurs Serial et Branch . Vous pouvez en savoir plus sur ces combinateurs dans l'intro de couches et voir le code pour de nombreux modèles dans trax/models/ , par exemple, c'est ainsi que le modèle de langue du transformateur est implémenté. Vous trouverez ci-dessous un exemple de la façon de construire un modèle de classification des sentiments.

 model = tl . Serial (
    tl . Embedding ( vocab_size = 8192 , d_feature = 256 ),
    tl . Mean ( axis = 1 ),  # Average on axis 1 (length of sentence).
    tl . Dense ( 2 ),      # Classify 2 classes.
    tl . LogSoftmax ()   # Produce log-probabilities.
)

# You can print model structure.
print ( model )

 Serial[
  Embedding_8192_256
  Mean
  Dense_2
  LogSoftmax
]

Données

Pour former votre modèle, vous avez besoin de données. Dans TRAX, les flux de données sont représentés comme des itérateurs Python, vous pouvez donc appeler next(data_stream) et obtenir un tuple, par exemple, (inputs, targets) . Trax vous permet d'utiliser facilement des ensembles de données TensorFlow et vous pouvez également obtenir un itérateur à partir de votre propre fichier texte en utilisant le standard open('my_file.txt') .

 train_stream = trax . data . TFDS ( 'imdb_reviews' , keys = ( 'text' , 'label' ), train = True )()
eval_stream = trax . data . TFDS ( 'imdb_reviews' , keys = ( 'text' , 'label' ), train = False )()
print ( next ( train_stream ))  # See one example.

 (b"This was an absolutely terrible movie. Don't be lured in by Christopher Walken or Michael Ironside. Both are great actors, but this must simply be their worst role in history. Even their great acting could not redeem this movie's ridiculous storyline. This movie is an early nineties US propaganda piece. The most pathetic scenes were those when the Columbian rebels were making their cases for revolutions. Maria Conchita Alonso appeared phony, and her pseudo-love affair with Walken was nothing but a pathetic emotional plug in a movie that was devoid of any real meaning. I am disappointed that there are movies like this, ruining actor's like Christopher Walken's good name. I could barely sit through it.", 0)

À l'aide du module trax.data , vous pouvez créer des pipelines de traitement d'entrée, par exemple, pour tokeniser et mélanger vos données. Vous créez des pipelines de données à l'aide de trax.data.Serial et ce sont des fonctions que vous appliquez aux flux pour créer des flux traités.

 data_pipeline = trax . data . Serial (
    trax . data . Tokenize ( vocab_file = 'en_8k.subword' , keys = [ 0 ]),
    trax . data . Shuffle (),
    trax . data . FilterByLength ( max_length = 2048 , length_keys = [ 0 ]),
    trax . data . BucketByLength ( boundaries = [  32 , 128 , 512 , 2048 ],
                             batch_sizes = [ 256 ,  64 ,  16 ,    4 , 1 ],
                             length_keys = [ 0 ]),
    trax . data . AddLossWeights ()
  )
train_batches_stream = data_pipeline ( train_stream )
eval_batches_stream = data_pipeline ( eval_stream )
example_batch = next ( train_batches_stream )
print ( f'shapes = { [ x . shape for x in example_batch ] } ' )  # Check the shapes.

 shapes = [(4, 1024), (4,), (4,)]

Formation supervisée

Lorsque vous avez le modèle et les données, utilisez trax.supervised.training Entrez pour définir la formation et évaluer les tâches et créer une boucle de formation. La boucle de formation TRAX optimise la formation et créera des journaux de tensorboard et des points de contrôle de modèle pour vous.

 from trax . supervised import training

# Training task.
train_task = training . TrainTask (
    labeled_data = train_batches_stream ,
    loss_layer = tl . WeightedCategoryCrossEntropy (),
    optimizer = trax . optimizers . Adam ( 0.01 ),
    n_steps_per_checkpoint = 500 ,
)

# Evaluaton task.
eval_task = training . EvalTask (
    labeled_data = eval_batches_stream ,
    metrics = [ tl . WeightedCategoryCrossEntropy (), tl . WeightedCategoryAccuracy ()],
    n_eval_batches = 20  # For less variance in eval numbers.
)

# Training loop saves checkpoints to output_dir.
output_dir = os . path . expanduser ( '~/output_dir/' )
!r m - rf { output_dir }
training_loop = training . Loop ( model ,
                              train_task ,
                              eval_tasks = [ eval_task ],
                              output_dir = output_dir )

# Run 2000 steps (batches).
training_loop . run ( 2000 )

 Step      1: Ran 1 train steps in 0.78 secs
Step      1: train WeightedCategoryCrossEntropy |  1.33800304
Step      1: eval  WeightedCategoryCrossEntropy |  0.71843582
Step      1: eval      WeightedCategoryAccuracy |  0.56562500

Step    500: Ran 499 train steps in 5.77 secs
Step    500: train WeightedCategoryCrossEntropy |  0.62914723
Step    500: eval  WeightedCategoryCrossEntropy |  0.49253047
Step    500: eval      WeightedCategoryAccuracy |  0.74062500

Step   1000: Ran 500 train steps in 5.03 secs
Step   1000: train WeightedCategoryCrossEntropy |  0.42949259
Step   1000: eval  WeightedCategoryCrossEntropy |  0.35451687
Step   1000: eval      WeightedCategoryAccuracy |  0.83750000

Step   1500: Ran 500 train steps in 4.80 secs
Step   1500: train WeightedCategoryCrossEntropy |  0.41843575
Step   1500: eval  WeightedCategoryCrossEntropy |  0.35207348
Step   1500: eval      WeightedCategoryAccuracy |  0.82109375

Step   2000: Ran 500 train steps in 5.35 secs
Step   2000: train WeightedCategoryCrossEntropy |  0.38129005
Step   2000: eval  WeightedCategoryCrossEntropy |  0.33760912
Step   2000: eval      WeightedCategoryAccuracy |  0.85312500

Après avoir entraîné le modèle, exécutez-le comme n'importe quelle couche pour obtenir des résultats.

 example_input = next ( eval_batches_stream )[ 0 ][ 0 ]
example_input_str = trax . data . detokenize ( example_input , vocab_file = 'en_8k.subword' )
print ( f'example input_str: { example_input_str } ' )
sentiment_log_probs = model ( example_input [ None , :])  # Add batch dimension.
print ( f'Model returned sentiment probabilities: { np . exp ( sentiment_log_probs ) } ' )

 example input_str: I first saw this when I was a teen in my last year of Junior High. I was riveted to it! I loved the special effects, the fantastic places and the trial-aspect and flashback method of telling the story.<br /><br />Several years later I read the book and while it was interesting and I could definitely see what Swift was trying to say, I think that while it's not as perfect as the book for social commentary, as a story the movie is better. It makes more sense to have it be one long adventure than having Gulliver return after each voyage and making a profit by selling the tiny Lilliput sheep or whatever.<br /><br />It's much more arresting when everyone thinks he's crazy and the sheep DO make a cameo anyway. As a side note, when I saw Laputa I was stunned. It looks very much like the Kingdom of Zeal from the Chrono Trigger video game (1995) that also made me like this mini-series even more.<br /><br />I saw it again about 4 years ago, and realized that I still enjoyed it just as much. Really high quality stuff and began an excellent run of Sweeps mini-series for NBC who followed it up with the solid Merlin and interesting Alice in Wonderland.<pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>
Model returned sentiment probabilities: [[3.984500e-04 9.996014e-01]]

Développer