KoMiniLM
1.0.0
โมเดลภาษาปัจจุบันมักประกอบด้วยพารามิเตอร์หลายร้อยล้านพารามิเตอร์ ซึ่งนำมาซึ่งความท้าทายในการปรับแต่งอย่างละเอียดและการให้บริการออนไลน์ในแอปพลิเคชันในชีวิตจริง เนื่องจากเวลาแฝงและข้อจำกัดด้านความจุ ในโครงการนี้ เราเปิดตัวโมเดลภาษาเกาหลีแบบน้ำหนักเบาเพื่อแก้ไขข้อบกพร่องที่กล่าวมาข้างต้นของโมเดลภาษาที่มีอยู่
from transformers import AutoTokenizer , AutoModel
tokenizer = AutoTokenizer . from_pretrained ( "BM-K/ KoMiniLM " ) # 23M model
model = AutoModel . from_pretrained ( "BM-K/ KoMiniLM " )
inputs = tokenizer ( "안녕 세상아!" , return_tensors = "pt" )
outputs = model ( ** inputs )
** อัปเดตเมื่อ 2022.06.20 **
** อัปเดตเมื่อ 2022.05.24 **
Teacher Model
: KLUE-BERT(ฐาน)
การกระจายการเอาใจใส่ตนเองและความสัมพันธ์คุณค่าของการเอาใจใส่ตนเอง [Wang et al., 2020] ถูกกลั่นกรองจากแต่ละเลเยอร์ที่แยกจากกันของโมเดลครูไปจนถึงโมเดลนักเรียน วังและคณะ กลั่นในชั้นสุดท้ายของหม้อแปลงไฟฟ้า แต่นั่นไม่ใช่กรณีนี้ในโครงการนี้
ข้อมูล | ความเห็นข่าว | บทความข่าว |
---|---|---|
ขนาด | 10G | 10G |
บันทึก
- สามารถปรับปรุงประสิทธิภาพเพิ่มเติมได้โดยการเพิ่มข้อมูลวิกิในการฝึกอบรม
- โค้ดการรวบรวมข้อมูลและการประมวลผลล่วงหน้าสำหรับ บทความ News อยู่ที่นี่
{
"architectures" : [
" BertForPreTraining "
],
"attention_probs_dropout_prob" : 0.1 ,
"classifier_dropout" : null ,
"hidden_act" : " gelu " ,
"hidden_dropout_prob" : 0.1 ,
"hidden_size" : 384 ,
"initializer_range" : 0.02 ,
"intermediate_size" : 1536 ,
"layer_norm_eps" : 1e-12 ,
"max_position_embeddings" : 512 ,
"model_type" : " bert " ,
"num_attention_heads" : 12 ,
"num_hidden_layers" : 6 ,
"output_attentions" : true ,
"pad_token_id" : 0 ,
"position_embedding_type" : " absolute " ,
"return_dict" : false ,
"torch_dtype" : " float32 " ,
"transformers_version" : " 4.13.0 " ,
"type_vocab_size" : 2 ,
"use_cache" : true ,
"vocab_size" : 32000
}
{
"architectures" : [
" BertForPreTraining "
],
"attention_probs_dropout_prob" : 0.1 ,
"classifier_dropout" : null ,
"hidden_act" : " gelu " ,
"hidden_dropout_prob" : 0.1 ,
"hidden_size" : 768 ,
"initializer_range" : 0.02 ,
"intermediate_size" : 3072 ,
"layer_norm_eps" : 1e-12 ,
"max_position_embeddings" : 512 ,
"model_type" : " bert " ,
"num_attention_heads" : 12 ,
"num_hidden_layers" : 6 ,
"output_attentions" : true ,
"pad_token_id" : 0 ,
"position_embedding_type" : " absolute " ,
"return_dict" : false ,
"torch_dtype" : " float32 " ,
"transformers_version" : " 4.13.0 " ,
"type_vocab_size" : 2 ,
"use_cache" : true ,
"vocab_size" : 32000
}
cd KoMiniLM -Finetune
bash scripts/run_all_ KoMiniLM .sh
#พาราม | เฉลี่ย | อสมท (บัญชี) | เนเวอร์ เนอร์ (F1) | อุ้งเท้า (บัญชี) | คอร์นลี (บัญชี) | กสท (สเปียร์แมน) | คู่คำถาม (บัญชี) | กควาดี (พัฒนา) (อีเอ็ม/F1) | |
---|---|---|---|---|---|---|---|---|---|
โคเบิร์ต(KLUE) | 110ม | 86.84 | 90.20±0.07 | 87.11±0.05 | 81.36±0.21 | 81.06±0.33 | 82.47±0.14 | 95.03±0.44 | 84.43±0.18 / 93.05±0.04 |
เคซีเบิร์ต | 108ม | 78.94 | 89.60±0.10 | 84.34±0.13 | 67.02±0.42 | 74.17±0.52 | 76.57±0.51 | 93.97±0.27 | 60.87±0.27 / 85.01±0.14 |
โคเบิร์ต(SKT) | 92ม | 79.73 | 89.28±0.42 | 87.54±0.04 | 80.93±0.91 | 78.18±0.45 | 75.98±2.81 | 94.37±0.31 | 51.94±0.60 / 79.69±0.66 |
ดิสทิลโคเบิร์ต | 28ม | 74.73 | 88.39±0.08 | 84.22±0.01 | 61.74±0.45 | 70.22±0.14 | 72.11±0.27 | 92.65±0.16 | 52.52±0.48 / 76.00±0.71 |
KoMiniLM † | 68ม | 85.90 | 89.84±0.02 | 85.98±0.09 | 80.78±0.30 | 79.28±0.17 | 81.00±0.07 | 94.89±0.37 | 83.27±0.08 / 92.08±0.06 |
KoMiniLM † | 23ม | 84.79 | 89.67±0.03 | 84.79±0.09 | 78.67±0.45 | 78.10±0.07 | 78.90±0.11 | 94.81±0.12 | 82.11±0.42 / 91.21±0.29 |
งานนี้ได้รับอนุญาตภายใต้ Creative Commons Attribution-ShareAlike 4.0 International License