keras bert Télécharger - keras bert Téléchargement du code source

keras bert

[中文|anglais]

Mise en œuvre du BERT. Des modèles officiels pré-entraînés pourraient être chargés pour l’extraction et la prédiction de fonctionnalités.

Installer

pip install keras-bert

Usage

Charger des modèles officiels pré-entraînés
Tokeniseur
Former et utiliser
Utiliser l'échauffement
Télécharger les points de contrôle pré-entraînés
Extraire les fonctionnalités

Liens externes

Kashgari est un cadre d'apprentissage de transfert PNL prêt pour la production pour l'étiquetage et la classification de textes.
Keras ALBERT

Charger des modèles officiels pré-entraînés

Dans la démo d'extraction de fonctionnalités, vous devriez pouvoir obtenir les mêmes résultats d'extraction que le modèle officiel chinese_L-12_H-768_A-12 . Et dans la démonstration de prédiction, le mot manquant dans la phrase pouvait être prédit.

Exécuter sur TPU

La démo d'extraction montre comment convertir en un modèle qui s'exécute sur TPU.

La démo de classification montre comment appliquer le modèle à des tâches de classification simples.

Tokeniseur

La classe Tokenizer est utilisée pour diviser des textes et générer des indices :

 from keras_bert import Tokenizer

token_dict = {
    '[CLS]' : 0 ,
    '[SEP]' : 1 ,
    'un' : 2 ,
    '##aff' : 3 ,
    '##able' : 4 ,
    '[UNK]' : 5 ,
}
tokenizer = Tokenizer ( token_dict )
print ( tokenizer . tokenize ( 'unaffable' ))  # The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]']`
indices , segments = tokenizer . encode ( 'unaffable' )
print ( indices )  # Should be `[0, 2, 3, 4, 1]`
print ( segments )  # Should be `[0, 0, 0, 0, 0]`

print ( tokenizer . tokenize ( first = 'unaffable' , second = '钢' ))
# The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]', '钢', '[SEP]']`
indices , segments = tokenizer . encode ( first = 'unaffable' , second = '钢' , max_len = 10 )
print ( indices )  # Should be `[0, 2, 3, 4, 1, 5, 1, 0, 0, 0]`
print ( segments )  # Should be `[0, 0, 0, 0, 0, 1, 1, 0, 0, 0]`

Former et utiliser

 from tensorflow import keras
from keras_bert import get_base_dict , get_model , compile_model , gen_batch_inputs


# A toy input example
sentence_pairs = [
    [[ 'all' , 'work' , 'and' , 'no' , 'play' ], [ 'makes' , 'jack' , 'a' , 'dull' , 'boy' ]],
    [[ 'from' , 'the' , 'day' , 'forth' ], [ 'my' , 'arm' , 'changed' ]],
    [[ 'and' , 'a' , 'voice' , 'echoed' ], [ 'power' , 'give' , 'me' , 'more' , 'power' ]],
]


# Build token dictionary
token_dict = get_base_dict ()  # A dict that contains some special tokens
for pairs in sentence_pairs :
    for token in pairs [ 0 ] + pairs [ 1 ]:
        if token not in token_dict :
            token_dict [ token ] = len ( token_dict )
token_list = list ( token_dict . keys ())  # Used for selecting a random word


# Build & train the model
model = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
)
compile_model ( model )
model . summary ()

def _generator ():
    while True :
        yield gen_batch_inputs (
            sentence_pairs ,
            token_dict ,
            token_list ,
            seq_len = 20 ,
            mask_rate = 0.3 ,
            swap_sentence_rate = 1.0 ,
        )

model . fit_generator (
    generator = _generator (),
    steps_per_epoch = 1000 ,
    epochs = 100 ,
    validation_data = _generator (),
    validation_steps = 100 ,
    callbacks = [
        keras . callbacks . EarlyStopping ( monitor = 'val_loss' , patience = 5 )
    ],
)


# Use the trained model
inputs , output_layer = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
    training = False ,      # The input layers and output layer will be returned if `training` is `False`
    trainable = False ,     # Whether the model is trainable. The default value is the same with `training`
    output_layer_num = 4 ,  # The number of layers whose outputs will be concatenated as a single output.
                         # Only available when `training` is `False`.
)

Utiliser l'échauffement

L'optimiseur AdamWarmup est fourni pour l'échauffement et la décroissance. Le taux d'apprentissage atteindra lr en étapes warmpup_steps et diminuera jusqu'à min_lr en étapes decay_steps . Il existe une fonction d'assistance calc_train_steps pour calculer les deux étapes :

 import numpy as np
from keras_bert import AdamWarmup , calc_train_steps

train_x = np . random . standard_normal (( 1024 , 100 ))

total_steps , warmup_steps = calc_train_steps (
    num_example = train_x . shape [ 0 ],
    batch_size = 32 ,
    epochs = 10 ,
    warmup_proportion = 0.1 ,
)

optimizer = AdamWarmup ( total_steps , warmup_steps , lr = 1e-3 , min_lr = 1e-5 )

Télécharger les points de contrôle pré-entraînés

Plusieurs URL de téléchargement ont été ajoutées. Vous pouvez obtenir le chemin téléchargé et non compressé d'un point de contrôle en :

 from keras_bert import get_pretrained , PretrainedList , get_checkpoint_paths

model_path = get_pretrained ( PretrainedList . multi_cased_base )
paths = get_checkpoint_paths ( model_path )
print ( paths . config , paths . checkpoint , paths . vocab )

Extraire les fonctionnalités

Vous pouvez utiliser la fonction d'assistance extract_embeddings si les fonctionnalités des jetons ou des phrases (sans réglage supplémentaire) correspondent à vos besoins. Pour extraire les fonctionnalités de tous les jetons :

 from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [ 'all work and no play' , 'makes jack a dull boy~' ]

embeddings = extract_embeddings ( model_path , texts )

Le résultat renvoyé est une liste de la même longueur que les textes. Chaque élément de la liste est un tableau numpy tronqué par la longueur de l'entrée. Les formes de sorties dans cet exemple sont (7, 768) et (8, 768) .

Lorsque les entrées sont des phrases appariées et que vous avez besoin des sorties de NSP et du pooling maximum des 4 dernières couches :

 from keras_bert import extract_embeddings , POOL_NSP , POOL_MAX

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [
    ( 'all work and no play' , 'makes jack a dull boy' ),
    ( 'makes jack a dull boy' , 'all work and no play' ),
]

embeddings = extract_embeddings ( model_path , texts , output_layer_num = 4 , poolings = [ POOL_NSP , POOL_MAX ])

Il n’y a aucune fonctionnalité de jeton dans les résultats. Les sorties de NSP et max-pooling seront concaténées avec la forme finale (768 x 4 x 2,) .

Le deuxième argument de la fonction d'assistance est un générateur. Pour extraire les fonctionnalités d'un fichier :

 import codecs
from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'

with codecs . open ( 'xxx.txt' , 'r' , 'utf8' ) as reader :
    texts = map ( lambda x : x . strip (), reader )
    embeddings = extract_embeddings ( model_path , texts )