تنزيل keras bert - تنزيل كود مصدر keras bert

keras bert

[中文|إنجليزي]

تنفيذ بيرت. يمكن تحميل النماذج الرسمية المدربة مسبقًا لاستخراج الميزات والتنبؤ بها.

ثَبَّتَ

pip install keras-bert

الاستخدام

قم بتحميل النماذج الرسمية المدربة مسبقًا
رمز مميز
التدريب والاستخدام
استخدم الاحماء
قم بتنزيل نقاط التفتيش المدربة مسبقًا
ميزات الاستخراج

روابط خارجية

Kashgari هو إطار تعلم البرمجة اللغوية العصبية (NLP Transfer) جاهز للإنتاج لوضع العلامات على النص وتصنيف النص
كيراس ألبرت

قم بتحميل النماذج الرسمية المدربة مسبقًا

في العرض التوضيحي لاستخراج الميزات، يجب أن تكون قادرًا على الحصول على نفس نتائج الاستخراج مثل النموذج الرسمي chinese_L-12_H-768_A-12 . وفي عرض التنبؤ، يمكن التنبؤ بالكلمة المفقودة في الجملة.

تشغيل على TPU

يوضح العرض التوضيحي للاستخراج كيفية التحويل إلى نموذج يعمل على مادة TPU.

يوضح العرض التوضيحي للتصنيف كيفية تطبيق النموذج على مهام التصنيف البسيطة.

رمز مميز

يتم استخدام فئة Tokenizer لتقسيم النصوص وإنشاء المؤشرات:

 from keras_bert import Tokenizer

token_dict = {
    '[CLS]' : 0 ,
    '[SEP]' : 1 ,
    'un' : 2 ,
    '##aff' : 3 ,
    '##able' : 4 ,
    '[UNK]' : 5 ,
}
tokenizer = Tokenizer ( token_dict )
print ( tokenizer . tokenize ( 'unaffable' ))  # The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]']`
indices , segments = tokenizer . encode ( 'unaffable' )
print ( indices )  # Should be `[0, 2, 3, 4, 1]`
print ( segments )  # Should be `[0, 0, 0, 0, 0]`

print ( tokenizer . tokenize ( first = 'unaffable' , second = '钢' ))
# The result should be `['[CLS]', 'un', '##aff', '##able', '[SEP]', '钢', '[SEP]']`
indices , segments = tokenizer . encode ( first = 'unaffable' , second = '钢' , max_len = 10 )
print ( indices )  # Should be `[0, 2, 3, 4, 1, 5, 1, 0, 0, 0]`
print ( segments )  # Should be `[0, 0, 0, 0, 0, 1, 1, 0, 0, 0]`

التدريب والاستخدام

 from tensorflow import keras
from keras_bert import get_base_dict , get_model , compile_model , gen_batch_inputs


# A toy input example
sentence_pairs = [
    [[ 'all' , 'work' , 'and' , 'no' , 'play' ], [ 'makes' , 'jack' , 'a' , 'dull' , 'boy' ]],
    [[ 'from' , 'the' , 'day' , 'forth' ], [ 'my' , 'arm' , 'changed' ]],
    [[ 'and' , 'a' , 'voice' , 'echoed' ], [ 'power' , 'give' , 'me' , 'more' , 'power' ]],
]


# Build token dictionary
token_dict = get_base_dict ()  # A dict that contains some special tokens
for pairs in sentence_pairs :
    for token in pairs [ 0 ] + pairs [ 1 ]:
        if token not in token_dict :
            token_dict [ token ] = len ( token_dict )
token_list = list ( token_dict . keys ())  # Used for selecting a random word


# Build & train the model
model = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
)
compile_model ( model )
model . summary ()

def _generator ():
    while True :
        yield gen_batch_inputs (
            sentence_pairs ,
            token_dict ,
            token_list ,
            seq_len = 20 ,
            mask_rate = 0.3 ,
            swap_sentence_rate = 1.0 ,
        )

model . fit_generator (
    generator = _generator (),
    steps_per_epoch = 1000 ,
    epochs = 100 ,
    validation_data = _generator (),
    validation_steps = 100 ,
    callbacks = [
        keras . callbacks . EarlyStopping ( monitor = 'val_loss' , patience = 5 )
    ],
)


# Use the trained model
inputs , output_layer = get_model (
    token_num = len ( token_dict ),
    head_num = 5 ,
    transformer_num = 12 ,
    embed_dim = 25 ,
    feed_forward_dim = 100 ,
    seq_len = 20 ,
    pos_num = 20 ,
    dropout_rate = 0.05 ,
    training = False ,      # The input layers and output layer will be returned if `training` is `False`
    trainable = False ,     # Whether the model is trainable. The default value is the same with `training`
    output_layer_num = 4 ,  # The number of layers whose outputs will be concatenated as a single output.
                         # Only available when `training` is `False`.
)

استخدم الاحماء

يتم توفير محسن AdamWarmup للإحماء والانحلال. سيصل معدل التعلم إلى lr في خطوات warmpup_steps ، وينخفض إلى min_lr في خطوات decay_steps . توجد دالة مساعدة calc_train_steps لحساب الخطوتين:

 import numpy as np
from keras_bert import AdamWarmup , calc_train_steps

train_x = np . random . standard_normal (( 1024 , 100 ))

total_steps , warmup_steps = calc_train_steps (
    num_example = train_x . shape [ 0 ],
    batch_size = 32 ,
    epochs = 10 ,
    warmup_proportion = 0.1 ,
)

optimizer = AdamWarmup ( total_steps , warmup_steps , lr = 1e-3 , min_lr = 1e-5 )

قم بتنزيل نقاط التفتيش المدربة مسبقًا

تمت إضافة العديد من عناوين URL للتنزيل. يمكنك الحصول على المسار الذي تم تنزيله وغير مضغوط لنقطة التفتيش عن طريق:

 from keras_bert import get_pretrained , PretrainedList , get_checkpoint_paths

model_path = get_pretrained ( PretrainedList . multi_cased_base )
paths = get_checkpoint_paths ( model_path )
print ( paths . config , paths . checkpoint , paths . vocab )

ميزات الاستخراج

يمكنك استخدام الوظيفة المساعدة extract_embeddings إذا كانت ميزات الرموز المميزة أو الجمل (بدون مزيد من الضبط) هي ما تحتاجه. لاستخراج ميزات جميع الرموز المميزة:

 from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [ 'all work and no play' , 'makes jack a dull boy~' ]

embeddings = extract_embeddings ( model_path , texts )

النتيجة التي تم إرجاعها هي قائمة بنفس طول النصوص. كل عنصر في القائمة عبارة عن مصفوفة numpy مقطوعة حسب طول الإدخال. أشكال المخرجات في هذا المثال هي (7, 768) و (8, 768) .

عندما تكون المدخلات جملًا مقترنة، وتحتاج إلى مخرجات NSP والتجميع الأقصى للطبقات الأربع الأخيرة:

 from keras_bert import extract_embeddings , POOL_NSP , POOL_MAX

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'
texts = [
    ( 'all work and no play' , 'makes jack a dull boy' ),
    ( 'makes jack a dull boy' , 'all work and no play' ),
]

embeddings = extract_embeddings ( model_path , texts , output_layer_num = 4 , poolings = [ POOL_NSP , POOL_MAX ])

لا توجد ميزات رمزية في النتائج. سيتم ربط مخرجات NSP وmax-pooling بالشكل النهائي (768 x 4 x 2,) .

الوسيطة الثانية في الدالة المساعدة هي المولد. لاستخراج الميزات من الملف:

 import codecs
from keras_bert import extract_embeddings

model_path = 'xxx/yyy/uncased_L-12_H-768_A-12'

with codecs . open ( 'xxx.txt' , 'r' , 'utf8' ) as reader :
    texts = map ( lambda x : x . strip (), reader )
    embeddings = extract_embeddings ( model_path , texts )