Descarga de keras bert - Descarga del código fuente keras bert

keras bert

[中文|inglés]

Implementación del BERT. Se podrían cargar modelos oficiales previamente entrenados para la extracción y predicción de características.

Instalar

pip install keras-bert

Uso

Cargar modelos oficiales previamente entrenados
Tokenizador
Entrenar y usar
Usar calentamiento
Descargar puntos de control previamente entrenados
Extraer características

Enlaces externos

Kashgari es un marco de aprendizaje de transferencia de PNL listo para producción para etiquetado y clasificación de textos
Keras ALBERT

Cargar modelos oficiales previamente entrenados

En la demostración de extracción de funciones, debería poder obtener los mismos resultados de extracción que el modelo oficial chinese_L-12_H-768_A-12 . Y en la demostración de predicción, se podría predecir la palabra que falta en la oración.

Ejecutar en TPU

La demostración de extracción muestra cómo convertir a un modelo que se ejecuta en TPU.

La demostración de clasificación muestra cómo aplicar el modelo a tareas de clasificación simples.

Tokenizador

La clase Tokenizer se utiliza para dividir textos y generar índices:

 from keras_bert import Tokenizer

token_dict = {
    '[CLS]' : 0 ,
    '[SEP]' : 1 ,
    'un' : 2 ,
    '##aff' : 3 ,
    '##able' : 4 ,
    '[UNK]' : 5 ,
}
tokenizer = Tokenizer ( token_dict )
print ( tokenizer . tokenize ( 'unaffable' ))  # The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]']`
indices , segments = tokenizer . encode ( 'unaffable' )
print ( indices )  # Should be `[0, 2, 3, 4, 1]`
print ( segments )  # Should be `[0, 0, 0, 0, 0]`

print ( tokenizer . tokenize ( first = 'unaffable' , second = '钢' ))
# The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]', '钢', '[SEP]']`
indices , segments = tokenizer . encode ( first = 'unaffable' , second = '钢' , max_len = 10 )
print ( indices )  # Should be `[0, 2, 3, 4, 1, 5, 1, 0, 0, 0]`
print ( segments )  # Should be `[0, 0, 0, 0, 0, 1, 1, 0, 0, 0]`

Entrenar y usar

 from tensorflow import keras
from keras_bert import get_base_dict , get_model , compile_model , gen_batch_inputs


# A toy input example
sentence_pairs = [
    [[ 'all' , 'work' , 'and' , 'no' , 'play' ], [ 'makes' , 'jack' , 'a' , 'dull' , 'boy' ]],
    [[ 'from' , 'the' , 'day' , 'forth' ], [ 'my' , 'arm' , 'changed' ]],
    [[ 'and' , 'a' , 'voice' , 'echoed' ], [ 'power' , 'give' , 'me' , 'more' , 'power' ]],
]


# Build token dictionary
token_dict = get_base_dict ()  # A dict that contains some special tokens
for pairs in sentence_pairs :
    for token in pairs [ 0 ] + pairs [ 1 ]:
        if token not in token_dict :
            token_dict [ token ] = len ( token_dict )
token_list = list ( token_dict . keys ())  # Used for selecting a random word


# Build & train the model
model = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
)
compile_model ( model )
model . summary ()

def _generator ():
    while True :
        yield gen_batch_inputs (
            sentence_pairs ,
            token_dict ,
            token_list ,
            seq_len = 20 ,
            mask_rate = 0.3 ,
            swap_sentence_rate = 1.0 ,
        )

model . fit_generator (
    generator = _generator (),
    steps_per_epoch = 1000 ,
    epochs = 100 ,
    validation_data = _generator (),
    validation_steps = 100 ,
    callbacks = [
        keras . callbacks . EarlyStopping ( monitor = 'val_loss' , patience = 5 )
    ],
)


# Use the trained model
inputs , output_layer = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
    training = False ,      # The input layers and output layer will be returned if `training` is `False`
    trainable = False ,     # Whether the model is trainable. The default value is the same with `training`
    output_layer_num = 4 ,  # The number of layers whose outputs will be concatenated as a single output.
                         # Only available when `training` is `False`.
)

Usar calentamiento

Se proporciona el optimizador AdamWarmup para el calentamiento y el decaimiento. La tasa de aprendizaje alcanzará lr en los pasos de warmpup_steps y disminuirá a min_lr en los pasos decay_steps . Hay una función auxiliar calc_train_steps para calcular los dos pasos:

 import numpy as np
from keras_bert import AdamWarmup , calc_train_steps

train_x = np . random . standard_normal (( 1024 , 100 ))

total_steps , warmup_steps = calc_train_steps (
    num_example = train_x . shape [ 0 ],
    batch_size = 32 ,
    epochs = 10 ,
    warmup_proportion = 0.1 ,
)

optimizer = AdamWarmup ( total_steps , warmup_steps , lr = 1e-3 , min_lr = 1e-5 )

Descargar puntos de control previamente entrenados

Se han agregado varias URL de descarga. Puede obtener la ruta descargada y descomprimida de un punto de control de la siguiente manera:

 from keras_bert import get_pretrained , PretrainedList , get_checkpoint_paths

model_path = get_pretrained ( PretrainedList . multi_cased_base )
paths = get_checkpoint_paths ( model_path )
print ( paths . config , paths . checkpoint , paths . vocab )

Extraer características

Puede utilizar la función auxiliar extract_embeddings si lo que necesita son las características de tokens u oraciones (sin más ajustes). Para extraer las características de todos los tokens:

 from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [ 'all work and no play' , 'makes jack a dull boy~' ]

embeddings = extract_embeddings ( model_path , texts )

El resultado devuelto es una lista con la misma longitud que los textos. Cada elemento de la lista es una matriz numerosa truncada por la longitud de la entrada. Las formas de las salidas en este ejemplo son (7, 768) y (8, 768) .

Cuando las entradas son oraciones emparejadas y necesita las salidas de NSP y la agrupación máxima de las últimas 4 capas:

 from keras_bert import extract_embeddings , POOL_NSP , POOL_MAX

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [
    ( 'all work and no play' , 'makes jack a dull boy' ),
    ( 'makes jack a dull boy' , 'all work and no play' ),
]

embeddings = extract_embeddings ( model_path , texts , output_layer_num = 4 , poolings = [ POOL_NSP , POOL_MAX ])

No hay características simbólicas en los resultados. Las salidas de NSP y max-pooling se concatenarán con la forma final (768 x 4 x 2,) .

El segundo argumento de la función auxiliar es un generador. Para extraer características de un archivo:

 import codecs
from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'

with codecs . open ( 'xxx.txt' , 'r' , 'utf8' ) as reader :
    texts = map ( lambda x : x . strip (), reader )
    embeddings = extract_embeddings ( model_path , texts )