KoMiniLMダウンロード - KoMiniLMソースコードのダウンロード

KoMiniLM

AI ソースコード

1.0.0

ダウンロード

KoMiniLM

現在の言語モデルは通常、数億のパラメータで構成されており、遅延と容量の制約により、実際のアプリケーションでの微調整やオンラインサービスの提供に課題が生じています。このプロジェクトでは、既存の言語モデルの前述の欠点に対処するために、軽量の韓国語モデルをリリースします。

クイックツアー

KoMiniLM") # 23M model model = AutoModel.from_pretrained("BM-K/ KoMiniLM ") inputs = tokenizer("안녕 세상아!", return_tensors="pt") outputs = model(**inputs)">

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "BM-K/ KoMiniLM " ) # 23M model
model = AutoModel . from_pretrained ( "BM-K/ KoMiniLM " )

inputs = tokenizer ( "안녕 세상아!" , return_tensors = "pt" )
outputs = model ( ** inputs )

更新履歴

** 2022.06.20 更新 **

KoMiniLM -bert-68M をリリース

** 2022.05.24 更新 **

KoMiniLM -bert-23M をリリース

事前トレーニング

Teacher Model ：KLUE-BERT(ベース)

物体

自己注意分布と自己注意値関係 [Wang et al., 2020] は、教師モデルの各離散層から学生モデルまで抽出されました。王ら。変圧器の最後の層で蒸留されますが、このプロジェクトではそうではありませんでした。

データセット

データ	ニュースコメント	ニュース記事
サイズ	10G	10G

注記
Wiki データをトレーニングに追加すると、パフォーマンスがさらに向上します。
ニュース記事のクロールおよび前処理コードはここにあります。

構成

KoMiniLM -23M

{
  "architectures" : [
    " BertForPreTraining "
  ],
  "attention_probs_dropout_prob" : 0.1 ,
  "classifier_dropout" : null ,
  "hidden_act" : " gelu " ,
  "hidden_dropout_prob" : 0.1 ,
  "hidden_size" : 384 ,
  "initializer_range" : 0.02 ,
  "intermediate_size" : 1536 ,
  "layer_norm_eps" : 1e-12 ,
  "max_position_embeddings" : 512 ,
  "model_type" : " bert " ,
  "num_attention_heads" : 12 ,
  "num_hidden_layers" : 6 ,
  "output_attentions" : true ,
  "pad_token_id" : 0 ,
  "position_embedding_type" : " absolute " ,
  "return_dict" : false ,
  "torch_dtype" : " float32 " ,
  "transformers_version" : " 4.13.0 " ,
  "type_vocab_size" : 2 ,
  "use_cache" : true ,
  "vocab_size" : 32000
}

KoMiniLM -68M

{
  "architectures" : [
    " BertForPreTraining "
  ],
  "attention_probs_dropout_prob" : 0.1 ,
  "classifier_dropout" : null ,
  "hidden_act" : " gelu " ,
  "hidden_dropout_prob" : 0.1 ,
  "hidden_size" : 768 ,
  "initializer_range" : 0.02 ,
  "intermediate_size" : 3072 ,
  "layer_norm_eps" : 1e-12 ,
  "max_position_embeddings" : 512 ,
  "model_type" : " bert " ,
  "num_attention_heads" : 12 ,
  "num_hidden_layers" : 6 ,
  "output_attentions" : true ,
  "pad_token_id" : 0 ,
  "position_embedding_type" : " absolute " ,
  "return_dict" : false ,
  "torch_dtype" : " float32 " ,
  "transformers_version" : " 4.13.0 " ,
  "type_vocab_size" : 2 ,
  "use_cache" : true ,
  "vocab_size" : 32000
}

サブタスクのパフォーマンス

微調整実験の結果は、各タスクの平均 3 回の実行です。

KoMiniLM-Finetune bash scripts/run_all_ KoMiniLM .sh">

 cd KoMiniLM -Finetune
bash scripts/run_all_ KoMiniLM .sh

	#パラメータ	平均	新日鉄住金 (ACC)	ネイバーNER (F1)	足 (ACC)	コーンリ (ACC)	KorSTS (スピアマン)	質問ペア (ACC)	コークアD (開発) (EM/F1)
コバート(クルー)	110M	86.84	90.20±0.07	87.11±0.05	81.36±0.21	81.06±0.33	82.47±0.14	95.03±0.44	84.43±0.18/ 93.05±0.04
ケーバート	108M	78.94	89.60±0.10	84.34±0.13	67.02±0.42	74.17±0.52	76.57±0.51	93.97±0.27	60.87±0.27/ 85.01±0.14
コバート(SKT)	92M	79.73	89.28±0.42	87.54±0.04	80.93±0.91	78.18±0.45	75.98±2.81	94.37±0.31	51.94±0.60 / 79.69±0.66
ディスティルコバート	28M	74.73	88.39±0.08	84.22±0.01	61.74±0.45	70.22±0.14	72.11±0.27	92.65±0.16	52.52±0.48/ 76.00±0.71

KoMiniLM ^†	68M	85.90	89.84±0.02	85.98±0.09	80.78±0.30	79.28±0.17	81.00±0.07	94.89±0.37	83.27±0.08/ 92.08±0.06
KoMiniLM ^†	23M	84.79	89.67±0.03	84.79±0.09	78.67±0.45	78.10±0.07	78.90±0.11	94.81±0.12	82.11±0.42/ 91.21±0.29