Descarga de KoGPT2 - Descarga del código fuente KoGPT2

KoGPT2

Código Fuente de IA

1.0.0

Descargar

KoGPT2 (GPT-2 coreano) Ver 2.0
- Tokenizador
- Modelo
  - Actuaciones
  - Clasificación o regresión
- Datos
- Manifestación
- Ejemplos aportados por el usuario
- Comunicados de prensa relacionados
- Contactos
- Licencia

KoGPT2 (GPT-2 coreano) Ver 2.0

GPT-2 es un modelo de lenguaje aprendido para predecir bien la siguiente palabra en un texto determinado y está optimizado para la generación de oraciones. KoGPT2 es un modelo de lenguaje decoder coreano aprendido con más de 40 GB de texto para superar el rendimiento insuficiente del idioma coreano.

Tokenizador

Entrenado con Character BPE tokenizer del paquete tokenizers .

El tamaño del diccionario es 51.200 y la capacidad de reconocimiento de los tokens se ha aumentado añadiendo emoticones y emojis, como los que se utilizan con frecuencia en las conversaciones, como se muestra a continuación.

?, ?, ?, ?, ?, .. , :-) , :) , -) , (-: ...

Además, se definieron tokens no utilizados, como <unused0> a <unused99> para que pudieran definirse y usarse libremente según la tarea requerida.

KoGPT2-base-v2", bos_token='</s>', eos_token='</s>', unk_token='<unk>', pad_token='<pad>', mask_token='<mask>') > tokenizer.tokenize("안녕하세요. 한국어 GPT-2 입니다.?:)l^o") ['▁안녕', '하', '세', '요.', '▁한국어', '▁G', 'P', 'T', '-2', '▁입', '니다.', '?', ':)', 'l^o']">

 > from transformers import PreTrainedTokenizerFast
> tokenizer = PreTrainedTokenizerFast . from_pretrained ( "skt/ KoGPT2 -base-v2" ,
  bos_token = '</s>' , eos_token = '</s>' , unk_token = '<unk>' ,
  pad_token = '<pad>' , mask_token = '<mask>' )
> tokenizer . tokenize ( "안녕하세요. 한국어 GPT-2 입니다.?:)l^o" )
[ '▁안녕' , '하' , '세' , '요.' , '▁한국어' , '▁G' , 'P' , 'T' , '-2' , '▁입' , '니다.' , '?' , ':)' , 'l^o' ]

Modelo

Modelo	# de parámetros	Tipo	# de capas	# de cabezas	ffn_dim	atenuaciones_ocultas
`KoGPT2 -base-v2`	125M	Descifrador	12	12	3072	768

KoGPT2-base-v2') > text = '근육이 커지기 위해서는' > input_ids = tokenizer.encode(text, return_tensors='pt') > gen_ids = model.generate(input_ids, max_length=128, repetition_penalty=2.0, pad_token_id=tokenizer.pad_token_id, eos_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, use_cache=True) > generated = tokenizer.decode(gen_ids[0]) > print(generated) 근육이 커지기 위해서는 무엇보다 규칙적인 생활습관이 중요하다. 특히, 아침식사는 단백질과 비타민이 풍부한 과일과 채소를 많이 섭취하는 것이 좋다. 또한 하루 30분 이상 충분한 수면을 취하는 것도 도움이 된다. 아침 식사를 거르지 않고 규칙적으로 운동을 하면 혈액순환에 도움을 줄 뿐만 아니라 신진대사를 촉진해 체내 노폐물을 배출하고 혈압을 낮춰준다. 운동은 하루에 10분 정도만 하는 게 좋으며 운동 후에는 반드시 스트레칭을 통해 근육량을 늘리고 유연성을 높여야 한다. 운동 후 바로 잠자리에 드는 것은 피해야 하며 특히 아침에 일어나면 몸이 피곤해지기 때문에 무리하게 움직이면 오히려 역효과가 날 수도 있다...">

 > import torch
> from transformers import GPT2LMHeadModel

> model = GPT2LMHeadModel . from_pretrained ( 'skt/ KoGPT2 -base-v2' )
> text = '근육이 커지기 위해서는'
> input_ids = tokenizer . encode ( text , return_tensors = 'pt' )
> gen_ids = model . generate ( input_ids ,
                           max_length = 128 ,
                           repetition_penalty = 2.0 ,
                           pad_token_id = tokenizer . pad_token_id ,
                           eos_token_id = tokenizer . eos_token_id ,
                           bos_token_id = tokenizer . bos_token_id ,
                           use_cache = True )
> generated = tokenizer . decode ( gen_ids [ 0 ])
> print ( generated )
근육이 커지기 위해서는 무엇보다 규칙적인 생활습관이 중요하다 .
특히 , 아침식사는 단백질과 비타민이 풍부한 과일과 채소를 많이 섭취하는 것이 좋다 .
또한 하루 30 분 이상 충분한 수면을 취하는 것도 도움이 된다 .
아침 식사를 거르지 않고 규칙적으로 운동을 하면 혈액순환에 도움을 줄 뿐만 아니라 신진대사를 촉진해 체내 노폐물을 배출하고 혈압을 낮춰준다 .
운동은 하루에 10 분 정도만 하는 게 좋으며 운동 후에는 반드시 스트레칭을 통해 근육량을 늘리고 유연성을 높여야 한다 .
운동 후 바로 잠자리에 드는 것은 피해야 하며 특히 아침에 일어나면 몸이 피곤해지기 때문에 무리하게 움직이면 오히려 역효과가 날 수도 있다 ...

Actuaciones

Clasificación o regresión

	NSMC(acc)	KorSTS(lancero)
KoGPT2 2.0	89.1	77,8

Datos

Además de la Wikipedia coreana, se utilizaron varios datos, como noticias y el corpus v1.0 de todos, para entrenar el modelo.

Manifestación

enlace de demostración

Ejemplos aportados por el usuario

Corpus de periódicos del Instituto Nacional del Idioma Coreano (Ver.1.1) Clasificación de temas de artículos de noticias

Comunicados de prensa relacionados

SKT desarrolla una nueva versión de ' KoGPT2 ', una IA de escritura... Rendimiento mejorado al crear oraciones → párrafos
[AI Model Explorer] #7 Versión coreana de GPT-2, KoGPT2

Contactos

Publique problemas relacionados con KoGPT2 aquí.

Licencia

KoGPT2 se publica bajo la licencia CC-BY-NC-SA 4.0. Cumpla con los términos de la licencia cuando utilice modelos y códigos. La licencia completa se puede encontrar en el archivo LICENCIA.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-01-06
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo