Загрузка keras bert - Загрузка исходного кода keras bert

keras bert

[中文|Английский]

Реализация BERT. Официальные предварительно обученные модели могут быть загружены для извлечения признаков и прогнозирования.

Установить

pip install keras-bert

Использование

Загрузка официальных предварительно обученных моделей
токенизатор
Тренируйтесь и используйте
Используйте разминку
Загрузить предварительно обученные контрольные точки
Извлечение функций

Внешние ссылки

Кашгари — это готовая к производству среда трансферного обучения НЛП для маркировки и классификации текста.
Керас АЛЬБЕРТ

Загрузка официальных предварительно обученных моделей

В демо-версии извлечения функций вы сможете получить те же результаты извлечения, что и официальная модель chinese_L-12_H-768_A-12 . А в демо-версии предсказания можно было предсказать пропущенное слово в предложении.

Запустить на ТПУ

Демонстрация извлечения показывает, как преобразовать в модель, работающую на TPU.

Демо-версия классификации показывает, как применить модель к простым задачам классификации.

токенизатор

Класс Tokenizer используется для разделения текстов и генерации индексов:

 from keras_bert import Tokenizer

token_dict = {
    '[CLS]' : 0 ,
    '[SEP]' : 1 ,
    'un' : 2 ,
    '##aff' : 3 ,
    '##able' : 4 ,
    '[UNK]' : 5 ,
}
tokenizer = Tokenizer ( token_dict )
print ( tokenizer . tokenize ( 'unaffable' ))  # The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]']`
indices , segments = tokenizer . encode ( 'unaffable' )
print ( indices )  # Should be `[0, 2, 3, 4, 1]`
print ( segments )  # Should be `[0, 0, 0, 0, 0]`

print ( tokenizer . tokenize ( first = 'unaffable' , second = '钢' ))
# The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]', '钢', '[SEP]']`
indices , segments = tokenizer . encode ( first = 'unaffable' , second = '钢' , max_len = 10 )
print ( indices )  # Should be `[0, 2, 3, 4, 1, 5, 1, 0, 0, 0]`
print ( segments )  # Should be `[0, 0, 0, 0, 0, 1, 1, 0, 0, 0]`

Тренируйтесь и используйте

 from tensorflow import keras
from keras_bert import get_base_dict , get_model , compile_model , gen_batch_inputs


# A toy input example
sentence_pairs = [
    [[ 'all' , 'work' , 'and' , 'no' , 'play' ], [ 'makes' , 'jack' , 'a' , 'dull' , 'boy' ]],
    [[ 'from' , 'the' , 'day' , 'forth' ], [ 'my' , 'arm' , 'changed' ]],
    [[ 'and' , 'a' , 'voice' , 'echoed' ], [ 'power' , 'give' , 'me' , 'more' , 'power' ]],
]


# Build token dictionary
token_dict = get_base_dict ()  # A dict that contains some special tokens
for pairs in sentence_pairs :
    for token in pairs [ 0 ] + pairs [ 1 ]:
        if token not in token_dict :
            token_dict [ token ] = len ( token_dict )
token_list = list ( token_dict . keys ())  # Used for selecting a random word


# Build & train the model
model = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
)
compile_model ( model )
model . summary ()

def _generator ():
    while True :
        yield gen_batch_inputs (
            sentence_pairs ,
            token_dict ,
            token_list ,
            seq_len = 20 ,
            mask_rate = 0.3 ,
            swap_sentence_rate = 1.0 ,
        )

model . fit_generator (
    generator = _generator (),
    steps_per_epoch = 1000 ,
    epochs = 100 ,
    validation_data = _generator (),
    validation_steps = 100 ,
    callbacks = [
        keras . callbacks . EarlyStopping ( monitor = 'val_loss' , patience = 5 )
    ],
)


# Use the trained model
inputs , output_layer = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
    training = False ,      # The input layers and output layer will be returned if `training` is `False`
    trainable = False ,     # Whether the model is trainable. The default value is the same with `training`
    output_layer_num = 4 ,  # The number of layers whose outputs will be concatenated as a single output.
                         # Only available when `training` is `False`.
)

Используйте разминку

Оптимизатор AdamWarmup предназначен для прогрева и затухания. Скорость обучения достигнет lr за шаги warmpup_steps и затухнет до min_lr за шаги decay_steps . Существует вспомогательная calc_train_steps для расчета двух шагов:

 import numpy as np
from keras_bert import AdamWarmup , calc_train_steps

train_x = np . random . standard_normal (( 1024 , 100 ))

total_steps , warmup_steps = calc_train_steps (
    num_example = train_x . shape [ 0 ],
    batch_size = 32 ,
    epochs = 10 ,
    warmup_proportion = 0.1 ,
)

optimizer = AdamWarmup ( total_steps , warmup_steps , lr = 1e-3 , min_lr = 1e-5 )

Загрузить предварительно обученные контрольные точки

Добавлено несколько URL-адресов для скачивания. Вы можете получить загруженный и несжатый путь контрольной точки:

 from keras_bert import get_pretrained , PretrainedList , get_checkpoint_paths

model_path = get_pretrained ( PretrainedList . multi_cased_base )
paths = get_checkpoint_paths ( model_path )
print ( paths . config , paths . checkpoint , paths . vocab )

Извлечение функций

Вы можете использовать вспомогательную функцию extract_embeddings , если вам нужны функции токенов или предложений (без дальнейшей настройки). Чтобы извлечь характеристики всех токенов:

 from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [ 'all work and no play' , 'makes jack a dull boy~' ]

embeddings = extract_embeddings ( model_path , texts )

Возвращаемый результат представляет собой список той же длины, что и текст. Каждый элемент в списке представляет собой массив numpy, усеченный по длине ввода. Формы выходных данных в этом примере: (7, 768) и (8, 768) .

Когда входные данные представляют собой парные предложения, и вам нужны выходные данные NSP и максимальное объединение последних 4 слоев:

 from keras_bert import extract_embeddings , POOL_NSP , POOL_MAX

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [
    ( 'all work and no play' , 'makes jack a dull boy' ),
    ( 'makes jack a dull boy' , 'all work and no play' ),
]

embeddings = extract_embeddings ( model_path , texts , output_layer_num = 4 , poolings = [ POOL_NSP , POOL_MAX ])

В результатах нет функций токенов. Результаты NSP и max-pooling будут объединены в окончательную форму (768 x 4 x 2,) .

Второй аргумент вспомогательной функции — генератор. Чтобы извлечь объекты из файла:

 import codecs
from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'

with codecs . open ( 'xxx.txt' , 'r' , 'utf8' ) as reader :
    texts = map ( lambda x : x . strip (), reader )
    embeddings = extract_embeddings ( model_path , texts )