초매개변수 | 값 |
---|---|
6,166,502,400 | |
28 | |
4,096 | |
16,384 | |
16 | |
256 | |
2,048 | |
64,512 | |
위치 인코딩 | RoPE(로터리 포지션 임베딩) |
RoPE 치수 | 64 |
다음은 소수의 KoGPT 예시에 권장되는 최소 GPU 하드웨어 지침입니다.
32GB GPU RAM
다음은 소수의 KoGPT 예시에 권장되는 최소 GPU 하드웨어 지침입니다.
16GB GPU RAM
python -m kogpt --help
usage: KoGPT inference [-h] [--model MODEL] [--revision {KoGPT6B-ryan1.5b}]
[--device {cpu,cuda}] [-d]
KakaoBrain Korean(hangul) Generative Pre-Training Model
optional arguments:
-h, --help show this help message and exit
--model MODEL huggingface repo (default:kakaobrain/kogpt)
--revision {KoGPT6B-ryan1.5b}
--device {cpu,cuda} (default:cuda)
-d, --debug
python -m kogpt
prompt > 인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던
temperature(0.8) >
max_length(128) > 64
인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
prompt >
...
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
bos_token = '[BOS]' , eos_token = '[EOS]' , unk_token = '[UNK]' , pad_token = '[PAD]' , mask_token = '[MASK]'
)
model = AutoModelForCausalLM . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
pad_token_id = tokenizer . eos_token_id ,
torch_dtype = 'auto' , low_cpu_mem_usage = True
). to ( device = 'cuda' , non_blocking = True )
_ = model . eval ()
prompt = '인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던'
with torch . no_grad ():
tokens = tokenizer . encode ( prompt , return_tensors = 'pt' ). to ( device = 'cuda' , non_blocking = True )
gen_tokens = model . generate ( tokens , do_sample = True , temperature = 0.8 , max_length = 64 )
generated = tokenizer . batch_decode ( gen_tokens )[ 0 ]
print ( generated ) # print: 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
모델 | #params | NSMC (Acc.) | YNAT (F1) | KLUE-STS (F1) |
---|---|---|---|---|
하이퍼클로바[1] | 1.3B | 83.9 | 58.7 | 60.9 |
하이퍼클로바[1] | 6.9B | 83.8 | 67.5 | 59.3 |
하이퍼클로바[1] | 13.0B | 87.9 | 67.9 | 60.0 |
하이퍼클로바[1] | 39.0B | 88.0 | 71.4 | 61.6 |
하이퍼클로바[1] | 82.0B | 88.2 | 72.7 | 65.1 |
우리 것 | 6.0B | 87.8 | 78.0 | 64.3 |
다운스트림 평가에 문제가 있는 것으로 보고되었습니다(#17).
기존에 공개된 성능평가표는 비교 대상 알고리즘이 다르고 성능 측정 방식을 확인할 수 없어 공정한 비교로 보기 어려워 삭제됐다.
기존 성능 평가표 및 문제 해결 결과는 위 이슈 링크를 참고하실 수 있습니다.
KakaoBrain KoGPT
욕설, 음란, 정치적 변화 및 기타 거친 언어가 포함된 것으로 알려진 데이터 세트인 원시 데이터에 대해 교육을 받았습니다. 따라서 KoGPT
사회적으로 용납되지 않는 텍스트를 생성할 수 있습니다. 모든 언어 모델과 마찬가지로 KoGPT
경고 없이 특정 프롬프트와 공격적인 콘텐츠에 어떻게 반응할지 미리 예측하기는 어렵습니다.
주로 한국어: KoGPT
는 주로 한국어 텍스트에 대해 교육을 받았으며 이러한 텍스트를 분류, 검색, 요약 또는 생성하는 데 가장 적합합니다. 기본적으로 KoGPT
훈련된 데이터 분포와 다른 입력(한국어가 아닌 언어 및 훈련 데이터에 잘 표현되지 않는 특정 한국어 방언을 포함)에 대해 더 나쁜 성능을 발휘합니다.
테스트 중 비정상적이거나 사회적으로 용납되지 않는 텍스트가 생성되는 경우, "메시지"와 "생성된 텍스트"를 [email protected]으로 보내주세요.
카카오브레인 KoGPT
는 AI커뮤니티를 연구용으로 욕설, 음란, 기본 콘텐츠 및 기타 고유 언어에 대한 처리를 하지 않는 원시 데이터로 학습하였습니다. 따라서 KoGPT
는 소셜에 적합하지 않은 콘텐츠를 생성할 수 있습니다. 다른 언어 모델과 관련된 특정 권한과 공격적인 콘텐츠에 대해 임의의 결과를 생성할 수 있도록 사전을 파악하기 위해 노력합니다.
KoGPT
는 주로 한국어로 학습을 구성하는 구성을 분류합니다. 기본적으로 KoGPT
는 학습 데이터에 잘 생기지 않는 방언이 아니라, 다른 경우와 같이 학습 데이터에서 발견하기 어려운 부분에서 좋은 성능을 보입니다.
본 KoGPT를 활용한 연구, 개발, 테스트 파라 있어 위의 부분을 멈추시기 바랍니다.
테스트 중에 오류가 있거나 사회적으로 용납되지 않는 텍스트가 생성된 경우 [email protected]로 "프롬프트"와 "생성된 문장"을 함께 보내주시기 바랍니다.
이 라이브러리나 모델을 프로젝트 및 연구에 적용하려면 다음 코드를 인용해 주세요.
@misc{kakaobrain2021kogpt,
title = {KoGPT: KakaoBrain Korean(hangul) Generative Pre-trained Transformer},
author = {Ildoo Kim and Gunsoo Han and Jiyeon Ham and Woonhyuk Baek},
year = {2021},
howpublished = {url{https://github.com/kakaobrain/kogpt}},
}
많은 연구기관 및 스타트업의 연구목적으로 도움이 되길 바라는 마음에서 오픈소스로 공개합니다. 다양한 곳에서 협력을 희망하시는 분들의 연락을 기다리고 있습니다.
카카오브레인 KoGPT
의 source code
Apache 2.0 라이선스에 따라 라이선스가 부여됩니다.
KakaoBrain KoGPT
의 pretrained weights
CC-BY-NC-ND 4.0 라이선스 라이선스에 따라 라이선스가 부여됩니다.
카카오브레인 KoGPT
의 소스코드(source code)
는 Apache 2.0 인스턴스 하에 표시됩니다.
카카오브레인 KoGPT
의 사전학습된 가중치(pretrained weights)
CC-BY-NC-ND 4.0 인스턴스 하에 표시됩니다.
모델 및 코드, 사전 학습이 실행되는 경우 내용을 준수해야 합니다. 프리미어 전문은 Apache 2.0, LICENSE.cc-by-nc-nd-4.0 파일에서 확인하실 수 있습니다.
오픈 소스 소프트웨어는 무료로 사용할 수 있지만 의무가 없다는 의미는 아닙니다. KoGPT의 의도된 사용이 Apache 2.0(또는 CC-BY-NC-ND 4.0)에 적합한지 확인하려면 라이센스 가이드를 고려하십시오. 라이센스를 위반할 경우, 사용에 따른 이용금지, 손해배상 청구 등 법적 조치를 받을 수 있습니다.
오픈소스 소프트웨어는 무료로 사용할 수 있지만 이를 제외한다는 의미는 아닙니다. KoGPT의 사용에 관한 가이드를 보고 분할한 사용이 Apache 2.0(CC-BY-NC-ND 4.0)을 준수하는지 여부를 확인하려면 먼저 확인하시기 바랍니다. 볼륨을 적용하는 경우, 내용에 따라 사용금지, 해상 배상 청구 등의 조치를 취할 수 있습니다.
[1] HyperCLOVA: 김보섭 외. "대규모 언어 모델이 어떤 변화를 가져올 수 있을까? 하이퍼클로바에 대한 집중 연구: 수십억 규모의 한국어 생성 사전 훈련된 변환기." arXiv 사전 인쇄 arXiv:2109.04650 (2021).
기여 섹션은 카카오브레인 공식 상품이 아닙니다.