Hiperparámetro | Valor |
---|---|
6.166.502.400 | |
28 | |
4.096 | |
16.384 | |
16 | |
256 | |
2.048 | |
64.512 | |
Codificación posicional | Incrustación de posición rotativa (RoPE) |
Dimensiones del cable | 64 |
La siguiente es la guía mínima recomendada de hardware de GPU para algunos KoGPT de ejemplo.
32GB GPU RAM
en el tamaño de memoria mínimo requeridoLa siguiente es la guía mínima recomendada de hardware de GPU para algunos KoGPT de ejemplo.
16GB GPU RAM
en el tamaño de memoria mínimo requerido python -m kogpt --help
usage: KoGPT inference [-h] [--model MODEL] [--revision {KoGPT6B-ryan1.5b}]
[--device {cpu,cuda}] [-d]
KakaoBrain Korean(hangul) Generative Pre-Training Model
optional arguments:
-h, --help show this help message and exit
--model MODEL huggingface repo (default:kakaobrain/kogpt)
--revision {KoGPT6B-ryan1.5b}
--device {cpu,cuda} (default:cuda)
-d, --debug
python -m kogpt
prompt > 인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던
temperature(0.8) >
max_length(128) > 64
인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
prompt >
...
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
bos_token = '[BOS]' , eos_token = '[EOS]' , unk_token = '[UNK]' , pad_token = '[PAD]' , mask_token = '[MASK]'
)
model = AutoModelForCausalLM . from_pretrained (
'kakaobrain/kogpt' , revision = 'KoGPT6B-ryan1.5b-float16' , # or float32 version: revision=KoGPT6B-ryan1.5b
pad_token_id = tokenizer . eos_token_id ,
torch_dtype = 'auto' , low_cpu_mem_usage = True
). to ( device = 'cuda' , non_blocking = True )
_ = model . eval ()
prompt = '인간처럼 생각하고, 행동하는 ' 지능 ' 을 통해 인류가 이제까지 풀지 못했던'
with torch . no_grad ():
tokens = tokenizer . encode ( prompt , return_tensors = 'pt' ). to ( device = 'cuda' , non_blocking = True )
gen_tokens = model . generate ( tokens , do_sample = True , temperature = 0.8 , max_length = 64 )
generated = tokenizer . batch_decode ( gen_tokens )[ 0 ]
print ( generated ) # print: 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상
Modelos | #parametros | NSMC (Acc.) | YNAT (F1) | KLUE-STS (F1) |
---|---|---|---|---|
HiperCLOVA[1] | 1.3B | 83,9 | 58,7 | 60,9 |
HiperCLOVA[1] | 6,9 mil millones | 83,8 | 67,5 | 59.3 |
HiperCLOVA[1] | 13 mil millones | 87,9 | 67,9 | 60.0 |
HiperCLOVA[1] | 39.0 mil millones | 88.0 | 71,4 | 61,6 |
HiperCLOVA[1] | 82.0 mil millones | 88.2 | 72,7 | 65.1 |
Nuestro | 6.0 mil millones | 87,8 | 78.0 | 64.3 |
Se nos ha informado que tenemos problemas (n.º 17) con nuestra evaluación posterior.
La tabla de evaluación del desempeño publicada anteriormente se eliminó porque era difícil verla como una comparación justa porque el algoritmo objetivo de comparación era diferente y el método de medición del desempeño no se pudo confirmar.
Puede consultar el enlace del problema anterior para ver la tabla de evaluación del desempeño existente y los resultados de la solución de problemas.
KakaoBrain KoGPT
fue entrenado con datos sin procesar, un conjunto de datos que se sabe que contiene malas palabras, cambios políticos lascivos y otros lenguajes duros. Por tanto, KoGPT
puede generar textos socialmente inaceptables. Como ocurre con todos los modelos de lenguaje, es difícil predecir de antemano cómo responderá KoGPT
a indicaciones particulares y contenido ofensivo sin previo aviso.
Principalmente coreano: KoGPT
está entrenado principalmente en textos coreanos y es mejor para clasificar, buscar, resumir o generar dichos textos. Por defecto, KoGPT
funciona peor en entradas que son diferentes de la distribución de datos en la que está entrenado, incluidos dialectos no coreanos y específicos del coreano que no están bien representados en los datos de entrenamiento.
Si se genera texto anormal o socialmente inaceptable durante la prueba, envíe un "mensaje" y el "texto generado" a [email protected].
Aplicación KoGPT
y AI 언어에 대한 처리를 하지 않은 원시 데이터로 학습하였습니다. KoGPT
están instalados en el dispositivo. 다른 언어 모델과 마찬가지로 특정 프롬프트와 공격적인 콘텐츠에 어떠한 결과를 생성할지 사전에 파악하기 어렵습니다.
KoGPT
는 주로 한국어 텍스트로 학습을 하였으며 이러한 텍스트를 분류, 검색, 요약 또는 생성하는데 가장 적합합니다. 기본적으로 KoGPT
는 학습 데이터에 잘 나타나지 않는 방언뿐만아니라 한국어가 아닌 경우와 같이 학습 데이터에서 발견하기 어려운 입력에서 좋지 않은 성능을 보입니다.
본 KoGPT를 활용한 연구, 개발, 테스트 등에 있어 위의 부분을 꼭 유의하시기 바랍니다.
테스트중에 발생한 비정상적인 혹은 사회적으로 용인되지 않는 텍스트가 생성된 경우 [email protected]로 "prompt"와 "생성된 문장"을 함께 보내주시기 바랍니다.
Si aplica esta biblioteca o modelo a cualquier proyecto e investigación, cite nuestro código:
@misc{kakaobrain2021kogpt,
title = {KoGPT: KakaoBrain Korean(hangul) Generative Pre-trained Transformer},
author = {Ildoo Kim and Gunsoo Han and Jiyeon Ham and Woonhyuk Baek},
year = {2021},
howpublished = {url{https://github.com/kakaobrain/kogpt}},
}
Esto se publica como código abierto con la esperanza de que sea útil para muchos institutos de investigación y nuevas empresas con fines de investigación. Esperamos contactarnos desde varios lugares que deseen cooperar con nosotros.
El source code
de KakaoBrain KoGPT
tiene la licencia Apache 2.0.
Las pretrained weights
de KakaoBrain KoGPT
tienen la licencia CC-BY-NC-ND 4.0.
El software KoGPT
está disponible 소스코드(source code)
y el software Apache 2.0.
카카오브레인 KoGPT
의 사전학습된 가중치(pretrained weights)
는 CC-BY-NC-ND 4.0 라이선스 라이선스 하에 공개되어 있습니다.
모델 및 코드, 사전학습된 가중치를 사용할 경우 라이선스 내용을 준수해 주십시오. Instale Apache 2.0, LICENSE.cc-by-nc-nd-4.0 para instalar Apache.
Si bien el software de código abierto puede ser de uso gratuito, eso no significa que esté libre de obligaciones. Para determinar si el uso previsto de KoGPT es adecuado para Apache 2.0 (o CC-BY-NC-ND 4.0), considere la guía de licencia. Si viola la licencia, puede estar sujeto a acciones legales como prohibición de uso o reclamo de daños y perjuicios dependiendo del uso.
오픈소스 소프트웨어는 무료로 사용할 수 있지만 이것이 의무가 없다는 의미는 아닙니다. KoGPT es un software de instalación de Apache 2.0 (CC-BY-NC-ND 4.0) 준수하는지 여부를 먼저 확인하시기 바랍니다. 라이선스를 위반하는 경우, 내용에 따라 사용금지, 손해배상 청구 등의 법적 조치를 취할 수 있습니다.
[1] HyperCLOVA: Kim, Boseop, et al. "¿Qué cambios pueden traer los modelos lingüísticos a gran escala? Estudio intensivo sobre hiperclova: transformadores preentrenados generativos coreanos a escala de miles de millones". Preimpresión de arXiv arXiv:2109.04650 (2021).
La sección de contribuciones no es un producto oficial de KakaoBrain.