超參數 | 價值 |
---|---|
6,166,502,400 | |
28 | |
4,096 | |
16,384 | |
16 | |
256 | |
2,048 | |
64,512 | |
位置編碼 | 旋轉位置嵌入 (RoPE) |
繩索尺寸 | 64 |
以下是針對少數 KoGPT 範例的建議最低 GPU 硬體指南。
32GB GPU RAM
以下是針對少數 KoGPT 範例的建議最低 GPU 硬體指南。
16GB GPU RAM
python -m kogpt --help
usage: KoGPT inference [-h] [--model MODEL] [--revision {KoGPT6B-ryan1.5b}]
[--device {cpu,cuda}] [-d]
KakaoBrain Korean(hangul) Generative Pre-Training Model
optional arguments:
-h, --help show this help message and exit
--model MODEL huggingface repo (default:kakaobrain/kogpt)
--revision {KoGPT6B-ryan1.5b}
--device {cpu,cuda} (default:cuda)
-d, --debug
python -m kogpt
prompt > 인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던
temperature(0.8) >
max_length(128) > 64
인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
prompt >
...
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
bos_token = '[BOS]' , eos_token = '[EOS]' , unk_token = '[UNK]' , pad_token = '[PAD]' , mask_token = '[MASK]'
)
model = AutoModelForCausalLM . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
pad_token_id = tokenizer . eos_token_id ,
torch_dtype = 'auto' , low_cpu_mem_usage = True
). to ( device = 'cuda' , non_blocking = True )
_ = model . eval ()
prompt = '인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던'
with torch . no_grad ():
tokens = tokenizer . encode ( prompt , return_tensors = 'pt' ). to ( device = 'cuda' , non_blocking = True )
gen_tokens = model . generate ( tokens , do_sample = True , temperature = 0.8 , max_length = 64 )
generated = tokenizer . batch_decode ( gen_tokens )[ 0 ]
print ( generated ) # print: 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
型號 | #參數 | NSMC(加速) | 伊納特 (F1) | 克魯伊-STS (F1) |
---|---|---|---|---|
超級CLOVA[1] | 1.3B | 83.9 | 58.7 | 60.9 |
超級CLOVA[1] | 6.9B | 83.8 | 67.5 | 59.3 |
超級CLOVA[1] | 13.0B | 87.9 | 67.9 | 60.0 |
超級CLOVA[1] | 39.0B | 88.0 | 71.4 | 61.6 |
超級CLOVA[1] | 82.0B | 88.2 | 72.7 | 65.1 |
我們的 | 6.0B | 87.8 | 78.0 | 64.3 |
據報道,我們的下游評估有問題(#17)。
先前發表的效能評估表被刪除,因為比較目標演算法不同且無法確定效能衡量方法,很難將其視為公平的比較。
您可以參考上述問題連結以取得現有的效能評估表和故障處理結果。
KakaoBrain KoGPT
使用原始資料進行訓練,已知資料集包含褻瀆、猥褻、政治變化和其他粗俗語言。因此, KoGPT
可以產生社會上不可接受的文本。與所有語言模型一樣,很難在沒有警告的情況下提前預測KoGPT
將如何回應特定提示和攻擊性內容。
主要是韓語: KoGPT
主要針對韓文文本進行訓練,最適合分類、搜尋、總結或產生此類文本。預設情況下, KoGPT
在與其訓練資料分佈不同的輸入上表現較差,包括非韓語以及訓練資料中未很好體現的特定韓語方言。
如果在測試過程中產生異常或社會不可接受的文本,請將「提示」和「產生的文本」發送至 [email protected]。
카카오브레인 KoGPT
는 AI커뮤니티를 위한 연구용으로 욕설, 음란, 정치적 내용 및 기타 거친 언어 에 대한 처리를 하지 않은 원시 데ք로 학습하였습니다。 KoGPT
與 KoGPT 相容。 다른 언어 모델과 마찬ラ지로 특정 프롬프트와 공벩적인 옕텐츠 젷쟠쟠젶젶長사전에 파악하기 어렵습니다。
KoGPT
測試工具請注意。 KoGPT
工具包학습 데견하기 어려운 입력에서 좋지 않은 성능을 보입니다。
KoGPT를활용한연구,개발,테스트등에있어위의부분을꼭유하시Ꝙ부분을꼭유하시갰바데。
關閉 關閉rain.com로「提示」와「생성된문장」을함께보내주시기바랍니다。
如果您將此程式庫或模型應用於任何專案和研究,請引用我們的程式碼:
@misc{kakaobrain2021kogpt,
title = {KoGPT: KakaoBrain Korean(hangul) Generative Pre-trained Transformer},
author = {Ildoo Kim and Gunsoo Han and Jiyeon Ham and Woonhyuk Baek},
year = {2021},
howpublished = {url{https://github.com/kakaobrain/kogpt}},
}
將此作為開源發布,希望對許多研究機構和新創公司的研究有所幫助。我們期待各地有志於與我們合作的人士與我們聯繫。
聯絡@kakaobrain.com
KakaoBrain KoGPT
的source code
根據 Apache 2.0 許可證獲得許可。
KakaoBrain KoGPT
的pretrained weights
已根據 CC-BY-NC-ND 4.0 許可協議獲得許可。
運行KoGPT
소스코드(source code)
Apache 2.0 運行於 하에 공개되어 運行。
카카오브레인 KoGPT
의 사전학습된 가중치(pretrained weights)
는 CC-BY-NC-ND 4.0 라不需要니다。
請注意,請注意,請確保您的產品符合您的要求。 Apache 2.0, LICENSE.cc-by-nc-nd-4.0 是由 Apache 2.0 提供的。
雖然開源軟體可以免費使用,但這並不意味著它沒有義務。若要確定您對 KoGPT 的預期用途是否適合 Apache 2.0(或 CC-BY-NC-ND 4.0),請考慮授權指南。如果您違反許可,根據使用情況,您可能會受到禁止使用或要求損害賠償等法律訴訟。
請注意,請注意以下事項: KoGPT 的支援 Apache 2.0 (CC-BY-NC-ND 4.0) 和 Apache 2.0 (CC-BY-NC-ND 4.0) 的支持부를 먼저 확인하시기 바랍니다。 라선스를 위반하는 경우, 내용에 따라 사용금지, 손해배상 사용금지, 손해배상 청용금지, 손해배상 삭藏있습니다。
[1] HyperCLOVA:Kim、Boseop 等人。 “大規模語言模型能帶來哪些變化?hyperclova深入研究:數十億級韓國生成式預訓練變形金剛。” arXiv 預印本 arXiv:2109.04650 (2021)。
貢獻部分不是 KakaoBrain 的官方產品。