GPT-2 เป็นรูปแบบภาษาที่เรียนรู้เพื่อทำนายคำถัดไปในข้อความที่กำหนดอย่างดี และได้รับการปรับให้เหมาะสมสำหรับการสร้างประโยค KoGPT2
คือโมเดลภาษา decoder
ภาษาเกาหลีที่เรียนรู้ด้วยข้อความมากกว่า 40GB เพื่อเอาชนะประสิทธิภาพภาษาเกาหลีที่ไม่เพียงพอ
ฝึกฝนด้วย Character BPE tokenizer
จากแพ็คเกจ tokenizers
ขนาดพจนานุกรมคือ 51,200 และความสามารถในการจดจำโทเค็นเพิ่มขึ้นโดยการเพิ่มอีโมติคอนและอิโมจิ เช่น ที่ใช้ในการสนทนาบ่อยๆ ดังที่แสดงด้านล่าง
?, ?, ?, ?, ?, .. ,
:-)
,:)
,-)
,(-:
...
นอกจากนี้ โทเค็นที่ไม่ได้ใช้ เช่น <unused0>
ถึง <unused99>
ถูกกำหนดไว้ เพื่อให้สามารถกำหนดและใช้งานได้อย่างอิสระ ขึ้นอยู่กับงานที่ต้องการ
> from transformers import PreTrainedTokenizerFast
> tokenizer = PreTrainedTokenizerFast . from_pretrained ( "skt/ KoGPT2 -base-v2" ,
bos_token = '</s>' , eos_token = '</s>' , unk_token = '<unk>' ,
pad_token = '<pad>' , mask_token = '<mask>' )
> tokenizer . tokenize ( "안녕하세요. 한국어 GPT-2 입니다.?:)l^o" )
[ '▁안녕' , '하' , '세' , '요.' , '▁한국어' , '▁G' , 'P' , 'T' , '-2' , '▁입' , '니다.' , '?' , ':)' , 'l^o' ]
แบบอย่าง | #ของพารามิเตอร์ | พิมพ์ | #จำนวนชั้น | #ของหัว | ffn_dim | ซ่อนอยู่_dims |
---|---|---|---|---|---|---|
KoGPT2 -base-v2 | 125ม | เครื่องถอดรหัส | 12 | 12 | 3072 | 768 |
> import torch
> from transformers import GPT2LMHeadModel
> model = GPT2LMHeadModel . from_pretrained ( 'skt/ KoGPT2 -base-v2' )
> text = '근육이 커지기 위해서는'
> input_ids = tokenizer . encode ( text , return_tensors = 'pt' )
> gen_ids = model . generate ( input_ids ,
max_length = 128 ,
repetition_penalty = 2.0 ,
pad_token_id = tokenizer . pad_token_id ,
eos_token_id = tokenizer . eos_token_id ,
bos_token_id = tokenizer . bos_token_id ,
use_cache = True )
> generated = tokenizer . decode ( gen_ids [ 0 ])
> print ( generated )
근육이 커지기 위해서는 무엇보다 규칙적인 생활습관이 중요하다 .
특히 , 아침식사는 단백질과 비타민이 풍부한 과일과 채소를 많이 섭취하는 것이 좋다 .
또한 하루 30 분 이상 충분한 수면을 취하는 것도 도움이 된다 .
아침 식사를 거르지 않고 규칙적으로 운동을 하면 혈액순환에 도움을 줄 뿐만 아니라 신진대사를 촉진해 체내 노폐물을 배출하고 혈압을 낮춰준다 .
운동은 하루에 10 분 정도만 하는 게 좋으며 운동 후에는 반드시 스트레칭을 통해 근육량을 늘리고 유연성을 높여야 한다 .
운동 후 바로 잠자리에 드는 것은 피해야 하며 특히 아침에 일어나면 몸이 피곤해지기 때문에 무리하게 움직이면 오히려 역효과가 날 수도 있다 ...
NSMC (ตามมาตรฐาน) | คอร์เอสทีเอส(สเปียร์แมน) | |
---|---|---|
KoGPT2 2 2.0 | 89.1 | 77.8 |
นอกจากวิกิพีเดียภาษาเกาหลีแล้ว ข้อมูลต่างๆ เช่น ข่าว และคลังข้อมูล v1.0 ของทุกคนยังถูกนำมาใช้ในการฝึกโมเดลอีกด้วย
ลิงค์สาธิต
กรุณาโพสต์ปัญหาที่เกี่ยวข้องกับ KoGPT2
ที่นี่
KoGPT2
เปิดตัวภายใต้ใบอนุญาต CC-BY-NC-SA 4.0 โปรดปฏิบัติตามข้อกำหนดสิทธิ์การใช้งานเมื่อใช้รุ่นและรหัส ใบอนุญาตฉบับเต็มสามารถพบได้ในไฟล์ LICENSE