Hiperparâmetro | Valor |
---|---|
6.166.502.400 | |
28 | |
4.096 | |
16.384 | |
16 | |
256 | |
2.048 | |
64.512 | |
Codificação posicional | Incorporação de posição rotativa (RoPE) |
Dimensões do RoPE | 64 |
A seguir está a orientação mínima recomendada de hardware de GPU para alguns exemplos de KoGPT.
32GB GPU RAM
no tamanho mínimo de memória exigidoA seguir está a orientação mínima recomendada de hardware de GPU para alguns exemplos de KoGPT.
16GB GPU RAM
no tamanho mínimo de memória exigido python -m kogpt --help
usage: KoGPT inference [-h] [--model MODEL] [--revision {KoGPT6B-ryan1.5b}]
[--device {cpu,cuda}] [-d]
KakaoBrain Korean(hangul) Generative Pre-Training Model
optional arguments:
-h, --help show this help message and exit
--model MODEL huggingface repo (default:kakaobrain/kogpt)
--revision {KoGPT6B-ryan1.5b}
--device {cpu,cuda} (default:cuda)
-d, --debug
python -m kogpt
prompt > 인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던
temperature(0.8) >
max_length(128) > 64
인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
prompt >
...
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
bos_token = '[BOS]' , eos_token = '[EOS]' , unk_token = '[UNK]' , pad_token = '[PAD]' , mask_token = '[MASK]'
)
model = AutoModelForCausalLM . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
pad_token_id = tokenizer . eos_token_id ,
torch_dtype = 'auto' , low_cpu_mem_usage = True
). to ( device = 'cuda' , non_blocking = True )
_ = model . eval ()
prompt = '인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던'
with torch . no_grad ():
tokens = tokenizer . encode ( prompt , return_tensors = 'pt' ). to ( device = 'cuda' , non_blocking = True )
gen_tokens = model . generate ( tokens , do_sample = True , temperature = 0.8 , max_length = 64 )
generated = tokenizer . batch_decode ( gen_tokens )[ 0 ]
print ( generated ) # print: 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
Modelos | #params | NSMC (ac.) | YNAT (F1) | KLUE-STS (F1) |
---|---|---|---|---|
HiperCLOVA[1] | 1,3B | 83,9 | 58,7 | 60,9 |
HiperCLOVA[1] | 6,9B | 83,8 | 67,5 | 59,3 |
HiperCLOVA[1] | 13,0B | 87,9 | 67,9 | 60,0 |
HiperCLOVA[1] | 39,0B | 88,0 | 71,4 | 61,6 |
HiperCLOVA[1] | 82,0B | 88,2 | 72,7 | 65,1 |
Nosso | 6,0B | 87,8 | 78,0 | 64,3 |
Foi relatado que temos problemas (nº 17) com nossa avaliação downstream.
A tabela de avaliação de desempenho publicada anteriormente foi excluída porque era difícil vê-la como uma comparação justa porque o algoritmo alvo de comparação era diferente e o método de medição de desempenho não pôde ser confirmado.
Você pode consultar o link do problema acima para obter a tabela de avaliação de desempenho existente e os resultados da solução de problemas.
KakaoBrain KoGPT
foi treinado em dados brutos, um conjunto de dados conhecido por conter palavrões, obscenidades, mudanças políticas e outras linguagens duras. Portanto, KoGPT
pode gerar textos socialmente inaceitáveis. Tal como acontece com todos os modelos de linguagem, é difícil prever antecipadamente como KoGPT
responderá a solicitações específicas e conteúdo ofensivo sem aviso prévio.
Principalmente coreano: KoGPT
é treinado principalmente em textos coreanos e é melhor para classificar, pesquisar, resumir ou gerar tais textos. Por padrão, KoGPT
tem desempenho pior em entradas que são diferentes da distribuição de dados em que é treinado, incluindo dialetos não-coreanos e específicos do coreano que não estão bem representados nos dados de treinamento.
Se um texto anormal ou socialmente inaceitável for gerado durante o teste, envie um "prompt" e o "texto gerado" para [email protected].
카카오브레인 KoGPT
는 AI커뮤니티를 위한 연구용으로 욕설, 음란, 정치적 내용 및 기타 거친 언어에 대한 처리를 하지 않은 원시 데이터로 학습하였습니다. 따라서 KoGPT
는 사회적으로 용인되지 않은 텍스트를 생성할 수 있습니다. 다른 언어 모델과 마찬가지로 특정 프롬프트와 공격적인 콘텐츠에 어떠한 결과를 생성할지 사전에 파악하기 어렵습니다.
KoGPT
는 주로 한국어 텍스트로 학습을 하였으며 이러한 텍스트를 분류, 검색, 요약 또는 생성하는데 가장 적합합니다. 기본적으로 KoGPT
는 학습 데이터에 잘 나타나지 않는 방언뿐만아니라 한국어가 아닌 경우와 같이 학습 데이터에서 발견하기 어려운 입력에서 좋지 않은 성능을 보입니다.
본 KoGPT를 활용한 연구, 개발, 테스트 등에 있어 위의 부분을 꼭 유의하시기 바랍니다.
테스트중에 발생한 비정상적인 혹은 사회적으로 용인되지 않는 텍스트가 생성된 경우 [email protected]로 "prompt"와 "생성된 문장"을 함께 보내주시기 바랍니다.
Se você aplicar esta biblioteca ou modelo a qualquer projeto e pesquisa, cite nosso código:
@misc{kakaobrain2021kogpt,
title = {KoGPT: KakaoBrain Korean(hangul) Generative Pre-trained Transformer},
author = {Ildoo Kim and Gunsoo Han and Jiyeon Ham and Woonhyuk Baek},
year = {2021},
howpublished = {url{https://github.com/kakaobrain/kogpt}},
}
Este é lançado como código aberto na esperança de que seja útil para muitos institutos de pesquisa e startups para fins de pesquisa. Estamos ansiosos para entrar em contato conosco de vários lugares que desejam cooperar conosco.
O source code
do KakaoBrain KoGPT
está licenciado sob a licença Apache 2.0.
Os pretrained weights
do KakaoBrain KoGPT
são licenciados sob a Licença CC-BY-NC-ND 4.0.
카카오브레인 KoGPT
의 소스코드(source code)
Apache 2.0 라이선스 하에 공개되어 있습니다.
카카오브레인 KoGPT
의 사전학습된 가중치(pretrained weights)
CC-BY-NC-ND 4.0 라이선스 라이선스 하에 공개되어 있습니다.
모델 및 코드, 사전학습된 가중치를 사용할 경우 라이선스 내용을 준수해 주십시오. 라이선스 전문은 Apache 2.0, LICENSE.cc-by-nc-nd-4.0 파일에서 확인하실 수 있습니다.
Embora o software de código aberto possa ser de uso gratuito, isso não significa que seja isento de obrigações. Para determinar se o uso pretendido do KoGPT é adequado para o Apache 2.0 (ou CC-BY-NC-ND 4.0), considere o guia de licença. Se você violar a licença, poderá estar sujeito a ações legais, como proibição de uso ou pedido de indenização, dependendo do uso.
오픈소스 소프트웨어는 무료로 사용할 수 있지만 이것이 의무가 없다는 의미는 아닙니다. KoGPT está configurado para usar o Apache 2.0 (com CC-BY-NC-ND 4.0) 준수하는지 여부를 먼저 확인하시기 바랍니다. 라이선스를 위반하는 경우, 내용에 따라 사용금지, 손해배상 청구 등의 법적 조치를 취할 수 있습니다.
[1] HiperCLOVA: Kim, Boseop, et al. "Que mudanças os modelos de linguagem em grande escala podem trazer? Estudo intensivo sobre hiperclova: transformadores pré-treinados generativos coreanos em escala de bilhões." Pré-impressão do arXiv arXiv:2109.04650 (2021).
A seção de contribuições não é um produto oficial do KakaoBrain.