keras bert Download - keras bert Source code download

keras bert

[中文|Bahasa Inggris]

Implementasi BERT. Model resmi terlatih dapat dimuat untuk ekstraksi fitur dan prediksi.

Memasang

pip install keras-bert

Penggunaan

Muat Model Resmi yang telah dilatih sebelumnya
Tokenizer
Latih & Gunakan
Gunakan Pemanasan
Unduh Pos Pemeriksaan Terlatih
Ekstrak Fitur

Tautan Eksternal

Kashgari adalah kerangka pembelajaran Transfer NLP siap Produksi untuk pelabelan teks dan klasifikasi teks
Keras ALBERT

Muat Model Resmi yang telah dilatih sebelumnya

Dalam demo ekstraksi fitur, Anda seharusnya bisa mendapatkan hasil ekstraksi yang sama seperti model resmi chinese_L-12_H-768_A-12 . Dan dalam demo prediksi, kata yang hilang dalam kalimat dapat diprediksi.

Jalankan di TPU

Demo ekstraksi menunjukkan cara mengonversi ke model yang berjalan di TPU.

Demo klasifikasi menunjukkan cara menerapkan model pada tugas klasifikasi sederhana.

Tokenizer

Kelas Tokenizer digunakan untuk memisahkan teks dan menghasilkan indeks:

 from keras_bert import Tokenizer

token_dict = {
    '[CLS]' : 0 ,
    '[SEP]' : 1 ,
    'un' : 2 ,
    '##aff' : 3 ,
    '##able' : 4 ,
    '[UNK]' : 5 ,
}
tokenizer = Tokenizer ( token_dict )
print ( tokenizer . tokenize ( 'unaffable' ))  # The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]']`
indices , segments = tokenizer . encode ( 'unaffable' )
print ( indices )  # Should be `[0, 2, 3, 4, 1]`
print ( segments )  # Should be `[0, 0, 0, 0, 0]`

print ( tokenizer . tokenize ( first = 'unaffable' , second = '钢' ))
# The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]', '钢', '[SEP]']`
indices , segments = tokenizer . encode ( first = 'unaffable' , second = '钢' , max_len = 10 )
print ( indices )  # Should be `[0, 2, 3, 4, 1, 5, 1, 0, 0, 0]`
print ( segments )  # Should be `[0, 0, 0, 0, 0, 1, 1, 0, 0, 0]`

Latih & Gunakan

 from tensorflow import keras
from keras_bert import get_base_dict , get_model , compile_model , gen_batch_inputs


# A toy input example
sentence_pairs = [
    [[ 'all' , 'work' , 'and' , 'no' , 'play' ], [ 'makes' , 'jack' , 'a' , 'dull' , 'boy' ]],
    [[ 'from' , 'the' , 'day' , 'forth' ], [ 'my' , 'arm' , 'changed' ]],
    [[ 'and' , 'a' , 'voice' , 'echoed' ], [ 'power' , 'give' , 'me' , 'more' , 'power' ]],
]


# Build token dictionary
token_dict = get_base_dict ()  # A dict that contains some special tokens
for pairs in sentence_pairs :
    for token in pairs [ 0 ] + pairs [ 1 ]:
        if token not in token_dict :
            token_dict [ token ] = len ( token_dict )
token_list = list ( token_dict . keys ())  # Used for selecting a random word


# Build & train the model
model = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
)
compile_model ( model )
model . summary ()

def _generator ():
    while True :
        yield gen_batch_inputs (
            sentence_pairs ,
            token_dict ,
            token_list ,
            seq_len = 20 ,
            mask_rate = 0.3 ,
            swap_sentence_rate = 1.0 ,
        )

model . fit_generator (
    generator = _generator (),
    steps_per_epoch = 1000 ,
    epochs = 100 ,
    validation_data = _generator (),
    validation_steps = 100 ,
    callbacks = [
        keras . callbacks . EarlyStopping ( monitor = 'val_loss' , patience = 5 )
    ],
)


# Use the trained model
inputs , output_layer = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
    training = False ,      # The input layers and output layer will be returned if `training` is `False`
    trainable = False ,     # Whether the model is trainable. The default value is the same with `training`
    output_layer_num = 4 ,  # The number of layers whose outputs will be concatenated as a single output.
                         # Only available when `training` is `False`.
)

Gunakan Pemanasan

Pengoptimal AdamWarmup disediakan untuk pemanasan dan peluruhan. Kecepatan pembelajaran akan mencapai lr dalam langkah-langkah warmpup_steps , dan menurun menjadi min_lr dalam langkah-langkah decay_steps . Ada fungsi pembantu calc_train_steps untuk menghitung dua langkah:

 import numpy as np
from keras_bert import AdamWarmup , calc_train_steps

train_x = np . random . standard_normal (( 1024 , 100 ))

total_steps , warmup_steps = calc_train_steps (
    num_example = train_x . shape [ 0 ],
    batch_size = 32 ,
    epochs = 10 ,
    warmup_proportion = 0.1 ,
)

optimizer = AdamWarmup ( total_steps , warmup_steps , lr = 1e-3 , min_lr = 1e-5 )

Unduh Pos Pemeriksaan Terlatih

Beberapa url unduhan telah ditambahkan. Anda bisa mendapatkan jalur pos pemeriksaan yang diunduh dan tidak dikompresi dengan:

 from keras_bert import get_pretrained , PretrainedList , get_checkpoint_paths

model_path = get_pretrained ( PretrainedList . multi_cased_base )
paths = get_checkpoint_paths ( model_path )
print ( paths . config , paths . checkpoint , paths . vocab )

Ekstrak Fitur

Anda dapat menggunakan fungsi pembantu extract_embeddings jika fitur token atau kalimat (tanpa penyetelan lebih lanjut) adalah yang Anda perlukan. Untuk mengekstrak fitur semua token:

 from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [ 'all work and no play' , 'makes jack a dull boy~' ]

embeddings = extract_embeddings ( model_path , texts )

Hasil yang dikembalikan adalah daftar dengan panjang yang sama dengan teks. Setiap item dalam daftar adalah array numpy yang dipotong berdasarkan panjang input. Bentuk keluaran dalam contoh ini adalah (7, 768) dan (8, 768) .

Ketika inputnya adalah kalimat berpasangan, dan Anda memerlukan output NSP dan max-pooling dari 4 lapisan terakhir:

 from keras_bert import extract_embeddings , POOL_NSP , POOL_MAX

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [
    ( 'all work and no play' , 'makes jack a dull boy' ),
    ( 'makes jack a dull boy' , 'all work and no play' ),
]

embeddings = extract_embeddings ( model_path , texts , output_layer_num = 4 , poolings = [ POOL_NSP , POOL_MAX ])

Tidak ada fitur token dalam hasil. Keluaran NSP dan max-pooling akan digabungkan dengan bentuk akhir (768 x 4 x 2,) .

Argumen kedua dalam fungsi pembantu adalah generator. Untuk mengekstrak fitur dari file:

 import codecs
from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'

with codecs . open ( 'xxx.txt' , 'r' , 'utf8' ) as reader :
    texts = map ( lambda x : x . strip (), reader )
    embeddings = extract_embeddings ( model_path , texts )