ดาวน์โหลด KoMiniLM - ดาวน์โหลดซอร์สโค้ด KoMiniLM

KoMiniLM

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

KoMiniLM

โมเดลภาษาปัจจุบันมักประกอบด้วยพารามิเตอร์หลายร้อยล้านพารามิเตอร์ ซึ่งนำมาซึ่งความท้าทายในการปรับแต่งอย่างละเอียดและการให้บริการออนไลน์ในแอปพลิเคชันในชีวิตจริง เนื่องจากเวลาแฝงและข้อจำกัดด้านความจุ ในโครงการนี้ เราเปิดตัวโมเดลภาษาเกาหลีแบบน้ำหนักเบาเพื่อแก้ไขข้อบกพร่องที่กล่าวมาข้างต้นของโมเดลภาษาที่มีอยู่

ทัวร์ด่วน

KoMiniLM") # 23M model model = AutoModel.from_pretrained("BM-K/ KoMiniLM ") inputs = tokenizer("안녕 세상아!", return_tensors="pt") outputs = model(**inputs)">

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "BM-K/ KoMiniLM " ) # 23M model
model = AutoModel . from_pretrained ( "BM-K/ KoMiniLM " )

inputs = tokenizer ( "안녕 세상아!" , return_tensors = "pt" )
outputs = model ( ** inputs )

อัปเดตประวัติ

** อัปเดตเมื่อ 2022.06.20 **

ปล่อย KoMiniLM -bert-68M

** อัปเดตเมื่อ 2022.05.24 **

ปล่อย KoMiniLM -bert-23M

การฝึกอบรมล่วงหน้า

Teacher Model : KLUE-BERT(ฐาน)

วัตถุ

การกระจายการเอาใจใส่ตนเองและความสัมพันธ์คุณค่าของการเอาใจใส่ตนเอง [Wang et al., 2020] ถูกกลั่นกรองจากแต่ละเลเยอร์ที่แยกจากกันของโมเดลครูไปจนถึงโมเดลนักเรียน วังและคณะ กลั่นในชั้นสุดท้ายของหม้อแปลงไฟฟ้า แต่นั่นไม่ใช่กรณีนี้ในโครงการนี้

ชุดข้อมูล

ข้อมูล	ความเห็นข่าว	บทความข่าว
ขนาด	10G	10G

บันทึก
สามารถปรับปรุงประสิทธิภาพเพิ่มเติมได้โดยการเพิ่มข้อมูลวิกิในการฝึกอบรม
โค้ดการรวบรวมข้อมูลและการประมวลผลล่วงหน้าสำหรับ บทความ News อยู่ที่นี่

การกำหนดค่า

KoMiniLM -23M

{
  "architectures" : [
    " BertForPreTraining "
  ],
  "attention_probs_dropout_prob" : 0.1 ,
  "classifier_dropout" : null ,
  "hidden_act" : " gelu " ,
  "hidden_dropout_prob" : 0.1 ,
  "hidden_size" : 384 ,
  "initializer_range" : 0.02 ,
  "intermediate_size" : 1536 ,
  "layer_norm_eps" : 1e-12 ,
  "max_position_embeddings" : 512 ,
  "model_type" : " bert " ,
  "num_attention_heads" : 12 ,
  "num_hidden_layers" : 6 ,
  "output_attentions" : true ,
  "pad_token_id" : 0 ,
  "position_embedding_type" : " absolute " ,
  "return_dict" : false ,
  "torch_dtype" : " float32 " ,
  "transformers_version" : " 4.13.0 " ,
  "type_vocab_size" : 2 ,
  "use_cache" : true ,
  "vocab_size" : 32000
}

KoMiniLM -68M

{
  "architectures" : [
    " BertForPreTraining "
  ],
  "attention_probs_dropout_prob" : 0.1 ,
  "classifier_dropout" : null ,
  "hidden_act" : " gelu " ,
  "hidden_dropout_prob" : 0.1 ,
  "hidden_size" : 768 ,
  "initializer_range" : 0.02 ,
  "intermediate_size" : 3072 ,
  "layer_norm_eps" : 1e-12 ,
  "max_position_embeddings" : 512 ,
  "model_type" : " bert " ,
  "num_attention_heads" : 12 ,
  "num_hidden_layers" : 6 ,
  "output_attentions" : true ,
  "pad_token_id" : 0 ,
  "position_embedding_type" : " absolute " ,
  "return_dict" : false ,
  "torch_dtype" : " float32 " ,
  "transformers_version" : " 4.13.0 " ,
  "type_vocab_size" : 2 ,
  "use_cache" : true ,
  "vocab_size" : 32000
}

ประสิทธิภาพในงานย่อย

ผลลัพธ์ของการทดลองปรับแต่งของเราโดยเฉลี่ยอยู่ที่ 3 รอบสำหรับแต่ละงาน

KoMiniLM-Finetune bash scripts/run_all_ KoMiniLM .sh">

 cd KoMiniLM -Finetune
bash scripts/run_all_ KoMiniLM .sh

	#พาราม	เฉลี่ย	อสมท (บัญชี)	เนเวอร์ เนอร์ (F1)	อุ้งเท้า (บัญชี)	คอร์นลี (บัญชี)	กสท (สเปียร์แมน)	คู่คำถาม (บัญชี)	กควาดี (พัฒนา) (อีเอ็ม/F1)
โคเบิร์ต(KLUE)	110ม	86.84	90.20±0.07	87.11±0.05	81.36±0.21	81.06±0.33	82.47±0.14	95.03±0.44	84.43±0.18 / 93.05±0.04
เคซีเบิร์ต	108ม	78.94	89.60±0.10	84.34±0.13	67.02±0.42	74.17±0.52	76.57±0.51	93.97±0.27	60.87±0.27 / 85.01±0.14
โคเบิร์ต(SKT)	92ม	79.73	89.28±0.42	87.54±0.04	80.93±0.91	78.18±0.45	75.98±2.81	94.37±0.31	51.94±0.60 / 79.69±0.66
ดิสทิลโคเบิร์ต	28ม	74.73	88.39±0.08	84.22±0.01	61.74±0.45	70.22±0.14	72.11±0.27	92.65±0.16	52.52±0.48 / 76.00±0.71

KoMiniLM ^†	68ม	85.90	89.84±0.02	85.98±0.09	80.78±0.30	79.28±0.17	81.00±0.07	94.89±0.37	83.27±0.08 / 92.08±0.06
KoMiniLM ^†	23ม	84.79	89.67±0.03	84.79±0.09	78.67±0.45	78.10±0.07	78.90±0.11	94.81±0.12	82.11±0.42 / 91.21±0.29