超参数 | 价值 |
---|---|
6,166,502,400 | |
28 | |
4,096 | |
16,384 | |
16 | |
256 | |
2,048 | |
64,512 | |
位置编码 | 旋转位置嵌入 (RoPE) |
绳索尺寸 | 64 |
以下是针对少数 KoGPT 示例的建议最低 GPU 硬件指南。
32GB GPU RAM
以下是针对少数 KoGPT 示例的建议最低 GPU 硬件指南。
16GB GPU RAM
python -m kogpt --help
usage: KoGPT inference [-h] [--model MODEL] [--revision {KoGPT6B-ryan1.5b}]
[--device {cpu,cuda}] [-d]
KakaoBrain Korean(hangul) Generative Pre-Training Model
optional arguments:
-h, --help show this help message and exit
--model MODEL huggingface repo (default:kakaobrain/kogpt)
--revision {KoGPT6B-ryan1.5b}
--device {cpu,cuda} (default:cuda)
-d, --debug
python -m kogpt
prompt > 인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던
temperature(0.8) >
max_length(128) > 64
인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
prompt >
...
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
bos_token = '[BOS]' , eos_token = '[EOS]' , unk_token = '[UNK]' , pad_token = '[PAD]' , mask_token = '[MASK]'
)
model = AutoModelForCausalLM . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
pad_token_id = tokenizer . eos_token_id ,
torch_dtype = 'auto' , low_cpu_mem_usage = True
). to ( device = 'cuda' , non_blocking = True )
_ = model . eval ()
prompt = '인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던'
with torch . no_grad ():
tokens = tokenizer . encode ( prompt , return_tensors = 'pt' ). to ( device = 'cuda' , non_blocking = True )
gen_tokens = model . generate ( tokens , do_sample = True , temperature = 0.8 , max_length = 64 )
generated = tokenizer . batch_decode ( gen_tokens )[ 0 ]
print ( generated ) # print: 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
型号 | #参数 | NSMC(加速) | 伊纳特 (F1) | 克鲁伊-STS (F1) |
---|---|---|---|---|
超级CLOVA[1] | 1.3B | 83.9 | 58.7 | 60.9 |
超级CLOVA[1] | 6.9B | 83.8 | 67.5 | 59.3 |
超级CLOVA[1] | 13.0B | 87.9 | 67.9 | 60.0 |
超级CLOVA[1] | 39.0B | 88.0 | 71.4 | 61.6 |
超级CLOVA[1] | 82.0B | 88.2 | 72.7 | 65.1 |
我们的 | 6.0B | 87.8 | 78.0 | 64.3 |
据报道,我们的下游评估存在问题(#17)。
此前公布的性能评估表被删除,因为比较目标算法不同且无法确定性能衡量方法,很难将其视为公平的比较。
您可以参考上述问题链接获取现有的性能评估表和故障处理结果。
KakaoBrain KoGPT
使用原始数据进行训练,该数据集已知包含亵渎、猥亵、政治变化和其他粗俗语言。因此, KoGPT
可以生成社会上不可接受的文本。与所有语言模型一样,很难在没有警告的情况下提前预测KoGPT
将如何响应特定提示和攻击性内容。
主要是韩语: KoGPT
主要针对韩语文本进行训练,最适合分类、搜索、总结或生成此类文本。默认情况下, KoGPT
在与其训练数据分布不同的输入上表现较差,包括非韩语以及训练数据中未得到很好体现的特定韩语方言。
如果在测试过程中生成异常或社会不可接受的文本,请将“提示”和“生成的文本”发送至 [email protected]。
카카오브레인 KoGPT
는 AI커뮤니티를 위한 연구용으로 욕설, 음란, 정치적 내용 및 기타 거친 언어에 대한 처리를 하지 않은 원시 데기터로 학습하였습니다。 KoGPT
与 KoGPT 兼容。 다른 언어 모델과 마찬ラ지로 특정 프롬프트와 공격적인 콘텐츠에 어떠한 결과를 생성할지 사전에 파악하기 어렵습니다。
KoGPT
测试工具请注意。 KoGPT
工具包请注意,请注意以下事项:
KoGPT를활용한연구,개발,테스트등에있어위의부분을꼭유의하시기바랍니다。
关闭[email protected]로“prompt”와“생성된 문장”을 함께 보내주시기 바랍니다。
如果您将此库或模型应用于任何项目和研究,请引用我们的代码:
@misc{kakaobrain2021kogpt,
title = {KoGPT: KakaoBrain Korean(hangul) Generative Pre-trained Transformer},
author = {Ildoo Kim and Gunsoo Han and Jiyeon Ham and Woonhyuk Baek},
year = {2021},
howpublished = {url{https://github.com/kakaobrain/kogpt}},
}
将此作为开源发布,希望对许多研究机构和初创公司的研究有所帮助。我们期待各地有志于与我们合作的人士与我们联系。
联系@kakaobrain.com
KakaoBrain KoGPT
的source code
根据 Apache 2.0 许可证获得许可。
KakaoBrain KoGPT
的pretrained weights
已根据 CC-BY-NC-ND 4.0 许可协议获得许可。
运行KoGPT
소스코드(source code)
Apache 2.0 运行于 하에 공개되어 运行。
카카오브레인 KoGPT
의 사전학습된 가중치(pretrained weights)
는 CC-BY-NC-ND 4.0 라 Been NC-ND 4.0 라선스 라개스 하에 공개되어 있습니다。
请注意,请注意,请确保您的产品符合您的要求。 Apache 2.0, LICENSE.cc-by-nc-nd-4.0 是由 Apache 2.0 提供的。
虽然开源软件可以免费使用,但这并不意味着它没有义务。要确定您对 KoGPT 的预期用途是否适合 Apache 2.0(或 CC-BY-NC-ND 4.0),请考虑许可证指南。如果您违反许可,根据使用情况,您可能会受到禁止使用或要求损害赔偿等法律诉讼。
请注意,请注意以下事项: KoGPT 应用程序和 Apache 2.0 (CC-BY-NC-ND 4.0)를 준수하는지 여부를 먼저 확인하시기 바랍니다。 라선스를 위반하는 경우, 내용에 따라 사용금지, 손해배상 청구 등의 법적 조치를 취할 수 있습니다。
[1] HyperCLOVA:Kim、Boseop 等人。 “大规模语言模型能带来哪些变化?hyperclova深入研究:数十亿级韩国生成式预训练变形金刚。” arXiv 预印本 arXiv:2109.04650 (2021)。
贡献部分不是 KakaoBrain 的官方产品。