GPT-2 هو نموذج لغة تم تعلمه للتنبؤ بالكلمة التالية في نص معين بشكل جيد وتم تحسينه لإنشاء الجملة. KoGPT2
هو نموذج لغة decoder
كورية تم تعلمه باستخدام نص يزيد حجمه عن 40 جيجابايت للتغلب على الأداء غير الكافي للغة الكورية.
تم التدريب على استخدام Character BPE tokenizer
من حزمة tokenizers
.
يبلغ حجم القاموس 51200، وتمت زيادة القدرة على التعرف على الرموز المميزة عن طريق إضافة الرموز التعبيرية والرموز التعبيرية، مثل تلك المستخدمة بشكل متكرر في المحادثات، كما هو موضح أدناه.
?, ?, ?, ?, ?, .. ,
:-)
,:)
,-)
,(-:
...
بالإضافة إلى ذلك، تم تعريف الرموز المميزة غير المستخدمة مثل <unused0>
إلى <unused99>
بحيث يمكن تعريفها واستخدامها بحرية وفقًا للمهمة المطلوبة.
> from transformers import PreTrainedTokenizerFast
> tokenizer = PreTrainedTokenizerFast . from_pretrained ( "skt/ KoGPT2 -base-v2" ,
bos_token = '</s>' , eos_token = '</s>' , unk_token = '<unk>' ,
pad_token = '<pad>' , mask_token = '<mask>' )
> tokenizer . tokenize ( "안녕하세요. 한국어 GPT-2 입니다.?:)l^o" )
[ '▁안녕' , '하' , '세' , '요.' , '▁한국어' , '▁G' , 'P' , 'T' , '-2' , '▁입' , '니다.' , '?' , ':)' , 'l^o' ]
نموذج | # من المعلمات | يكتب | # من الطبقات | # من الرؤوس | ffn_dim | Hidden_dims |
---|---|---|---|---|---|---|
KoGPT2 -base-v2 | 125 م | فك التشفير | 12 | 12 | 3072 | 768 |
> import torch
> from transformers import GPT2LMHeadModel
> model = GPT2LMHeadModel . from_pretrained ( 'skt/ KoGPT2 -base-v2' )
> text = '근육이 커지기 위해서는'
> input_ids = tokenizer . encode ( text , return_tensors = 'pt' )
> gen_ids = model . generate ( input_ids ,
max_length = 128 ,
repetition_penalty = 2.0 ,
pad_token_id = tokenizer . pad_token_id ,
eos_token_id = tokenizer . eos_token_id ,
bos_token_id = tokenizer . bos_token_id ,
use_cache = True )
> generated = tokenizer . decode ( gen_ids [ 0 ])
> print ( generated )
근육이 커지기 위해서는 무엇보다 규칙적인 생활습관이 중요하다 .
특히 , 아침식사는 단백질과 비타민이 풍부한 과일과 채소를 많이 섭취하는 것이 좋다 .
또한 하루 30 분 이상 충분한 수면을 취하는 것도 도움이 된다 .
아침 식사를 거르지 않고 규칙적으로 운동을 하면 혈액순환에 도움을 줄 뿐만 아니라 신진대사를 촉진해 체내 노폐물을 배출하고 혈압을 낮춰준다 .
운동은 하루에 10 분 정도만 하는 게 좋으며 운동 후에는 반드시 스트레칭을 통해 근육량을 늘리고 유연성을 높여야 한다 .
운동 후 바로 잠자리에 드는 것은 피해야 하며 특히 아침에 일어나면 몸이 피곤해지기 때문에 무리하게 움직이면 오히려 역효과가 날 수도 있다 ...
NSMC (حسب) | كورستس (حامل الرمح) | |
---|---|---|
KoGPT2 2.0 | 89.1 | 77.8 |
بالإضافة إلى ويكيبيديا الكورية، تم استخدام بيانات مختلفة مثل الأخبار ومجموعة الجميع الإصدار 1.0 لتدريب النموذج.
الرابط التجريبي
الرجاء نشر المشكلات المتعلقة بـ KoGPT2
هنا.
تم إصدار KoGPT2
بموجب ترخيص CC-BY-NC-SA 4.0. يرجى الالتزام بشروط الترخيص عند استخدام النماذج والأكواد. يمكن العثور على الترخيص الكامل في ملف الترخيص.