KorPatBERT (براءة الاختراع الكورية BERT) هو نموذج لغة ذكاء اصطناعي تم بحثه وتطويره بواسطة خدمة معلومات براءات الاختراع الكورية.
من أجل حل مشاكل معالجة اللغة الطبيعية الكورية في مجال براءات الاختراع وإعداد بنية تحتية ذكية للمعلومات في صناعة براءات الاختراع، يتم التدريب المسبق على كمية كبيرة من وثائق البراءات المحلية (القاعدة: حوالي 4.06 مليون وثيقة، الكبيرة: حوالي 5.06 مليون وثيقة) استنادًا إلى بنية النموذج الأساسي لـ Google BERT (التدريب المسبق) ويتم توفيره مجانًا.
إنه نموذج لغوي عالي الأداء تم تدريبه مسبقًا ومتخصص في مجال براءات الاختراع ويمكن استخدامه في مختلف مهام معالجة اللغة الطبيعية.
[قاعدة KorPatBERT]
[KorPatBERT-كبير]
[قاعدة KorPatBERT]
[KorPatBERT-كبير]
تم استخراج ما يقرب من 10 ملايين من الأسماء الرئيسية والأسماء المركبة من وثائق براءات الاختراع المستخدمة في تعلم نماذج اللغة، وتمت إضافتها إلى قاموس المستخدم الخاص بمحلل المورفيم الكوري Mecab-ko ثم تم تقسيمها إلى كلمات فرعية من خلال Google SentencePiece، وهو برنامج MSP متخصص رمز مميز (Mecab-ko Sentencepiece Patent Tokenizer).
نموذج | أعلى @ 1 (ACC) |
---|---|
جوجل بيرت | 72.33 |
كوربيرت | 73.29 |
كوبرت | 33.75 |
كبرت | 72.39 |
قاعدة KorPatBERT | 76.32 |
KorPatBERT-كبير | 77.06 |
نموذج | أعلى @ 1 (ACC) | أعلى @ 3 (ACC) | أعلى @ 5 (ACC) |
---|---|---|---|
قاعدة KorPatBERT | 61.91 | 82.18 | 86.97 |
KorPatBERT-كبير | 62.89 | 82.18 | 87.26 |
اسم البرنامج | إصدار | مسار دليل التثبيت | مطلوب؟ |
---|---|---|---|
بيثون | 3.6 وما فوق | https://www.python.org/ | ي |
اناكوندا | 4.6.8 وما فوق | https://www.anaconda.com/ | ن |
com.tensorflow | 2.2.0 وما فوق | https://www.tensorflow.org/install/pip?hl=ko | ي |
قطعة الجملة | 0.1.96 أو أعلى | https://github.com/google/sentencepiece | ن |
mecab-ko | 0.996-كو-0.0.2 | https://bitbucket.org/eunjeon/mecab-ko-dic/src/master/ | ي |
mecab-ko-dic | 2.1.1 | https://bitbucket.org/eunjeon/mecab-ko-dic/src/master/ | ي |
mecab-بيثون | 0.996-أون-0.9.2 | https://bitbucket.org/eunjeon/mecab-ko-dic/src/master/ | ي |
بيثون-ميكاب-كو | 1.0.11 أو أعلى | https://pypi.org/project/python-mecab-ko/ | ي |
keras | 2.4.3 وما فوق | https://github.com/keras-team/keras | ن |
bert_for_tf2 | 0.14.4 وما فوق | https://github.com/kpe/bert-for-tf2 | ن |
تقدم | 4.59.0 وما فوق | https://github.com/tqdm/tqdm | ن |
com.soynlp | 0.0.493 أو أعلى | https://github.com/lovit/soynlp | ن |
Installation URL: https://bitbucket.org/eunjeon/mecab-ko-dic/src/master/
mecab-ko > 0.996-ko-0.9.2
mecab-ko-dic > 2.1.1
mecab-python > 0.996-ko-0.9.2
from korpat_tokenizer import Tokenizer
# (vocab_path=Vocabulary 파일 경로, cased=한글->True, 영문-> False)
tokenizer = Tokenizer(vocab_path="./korpat_vocab.txt", cased=True)
# 테스트 샘플 문장
example = "본 고안은 주로 일회용 합성세제액을 집어넣어 밀봉하는 세제액포의 내부를 원호상으로 열중착하되 세제액이 배출되는 절단부 쪽으로 내벽을 협소하게 형성하여서 내부에 들어있는 세제액을 잘짜질 수 있도록 하는 합성세제 액포에 관한 것이다."
# 샘플 토크나이즈
tokens = tokenizer.tokenize(example)
# 샘플 인코딩 (max_len=토큰 최대 길이)
ids, _ = tokenizer.encode(example, max_len=256)
# 샘플 디코딩
decoded_tokens = tokenizer.decode(ids)
# 결과 출력
print("Length of Token dictionary ===>", len(tokenizer._token_dict.keys()))
print("Input example ===>", example)
print("Tokenized example ===>", tokens)
print("Converted example to IDs ===>", ids)
print("Converted IDs to example ===>", decoded_tokens)
Length of Token dictionary ===> 21400
Input example ===> 본 고안은 주로 일회용 합성세제액을 집어넣어 밀봉하는 세제액포의 내부를 원호상으로 열중착하되 세제액이 배출되는 절단부 쪽으로 내벽을 협소하게 형성하여서 내부에 들어있는 세제액을 잘짜질 수 있도록 하는 합성세제 액포에 관한 것이다.
Tokenized example ===> ['[CLS]', '본', '고안', '은', '주로', '일회용', '합성', '##세', '##제', '##액', '을', '집', '##어넣', '어', '밀봉', '하', '는', '세제', '##액', '##포', '의', '내부', '를', '원호', '상', '으로', '열', '##중', '착하', '되', '세제', '##액', '이', '배출', '되', '는', '절단부', '쪽', '으로', '내벽', '을', '협소', '하', '게', '형성', '하', '여서', '내부', '에', '들', '어', '있', '는', '세제', '##액', '을', '잘', '짜', '질', '수', '있', '도록', '하', '는', '합성', '##세', '##제', '액', '##포', '에', '관한', '것', '이', '다', '.', '[SEP]']
Converted example to IDs ===> [5, 58, 554, 32, 2716, 6554, 817, 20418, 20308, 20514, 15, 732, 15572, 39, 1634, 12, 11, 5934, 20514, 20367, 9, 315, 16, 5922, 17, 33, 279, 20399, 16971, 26, 5934, 20514, 13, 674, 26, 11, 10132, 1686, 33, 3781, 15, 11950, 12, 64, 87, 12, 3958, 315, 10, 51, 39, 25, 11, 5934, 20514, 15, 1803, 12889, 399, 24, 25, 118, 12, 11, 817, 20418, 20308, 299, 20367, 10, 439, 56, 13, 18, 14, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Converted IDs to example ===> ['본', '고안', '은', '주로', '일회용', '합성', '##세', '##제', '##액', '을', '집', '##어넣', '어', '밀봉', '하', '는', '세제', '##액', '##포', '의', '내부', '를', '원호', '상', '으로', '열', '##중', '착하', '되', '세제', '##액', '이', '배출', '되', '는', '절단부', '쪽', '으로', '내벽', '을', '협소', '하', '게', '형성', '하', '여서', '내부', '에', '들', '어', '있', '는', '세제', '##액', '을', '잘', '짜', '질', '수', '있', '도록', '하', '는', '합성', '##세', '##제', '액', '##포', '에', '관한', '것', '이', '다', '.']
※ إنها نفس طريقة التعلم الأساسية لـ Google BERT للحصول على أمثلة الاستخدام، راجع القسم 2.3 특허분야 사전학습 언어모델(KorPatBERT) 사용자 매뉴얼
.
نقوم بتوزيع النموذج اللغوي للمعهد الكوري لمعلومات براءات الاختراع من خلال إجراءات معينة على المنظمات والشركات والباحثين المهتمين به. يرجى ملء نموذج الطلب والاتفاقية وفقًا لإجراءات التقديم أدناه وإرسال الطلب عبر البريد الإلكتروني إلى الشخص المسؤول.
اسم الملف | توضيح |
---|---|
pat_all_mecab_dic.csv | قاموس مستخدم براءات الاختراع Mecab |
lm_test_data.tsv | مجموعة بيانات عينة التصنيف |
korpat_tokenizer.py | برنامج KorPat Tokenizer |
test_tokenize.py | عينة استخدام Tokenizer |
test_tokenize.ipynb | نموذج استخدام الرمز المميز (جوبيتر) |
test_lm.py | نموذج استخدام نموذج اللغة |
test_lm.ipynb | نموذج استخدام نموذج اللغة (Jupyter) |
korpat_bert_config.json | ملف التكوين KorPatBERT |
korpat_vocab.txt | ملفات المفردات KorPatBERT |
model.ckpt-381250.meta | ملف نموذج KorPatBERT |
model.ckpt-381250.index | ملف نموذج KorPatBERT |
model.ckpt-381250.data-00000-of-00001 | ملف نموذج KorPatBERT |