belgpt2
1.0.0
매우 크고 이질적인 프랑스어 코퍼스(~60Gb)에서 사전 훈련된 GPT-2 모델입니다.
BelGPT-2를 ? Transformers 라이브러리는 다음과 같습니다.
import torch
from transformers import GPT2Tokenizer , GPT2LMHeadModel
# Load pretrained model and tokenizer
model = GPT2LMHeadModel . from_pretrained ( "antoiloui/ belgpt2 " )
tokenizer = GPT2Tokenizer . from_pretrained ( "antoiloui/ belgpt2 " )
# Generate a sample of text
model . eval ()
output = model . generate (
bos_token_id = random . randint ( 1 , 50000 ),
do_sample = True ,
top_k = 50 ,
max_length = 100 ,
top_p = 0.95 ,
num_return_sequences = 1
)
# Decode it
decoded_output = []
for sample in output :
decoded_output . append ( tokenizer . decode ( sample , skip_special_tokens = True ))
print ( decoded_output )
사전 학습된 모델, 해당 구현 및 데이터에 대한 자세한 문서는 여기에서 찾을 수 있습니다.
학문적 맥락에서 귀속을 확인하려면 이 저작물을 다음과 같이 인용하세요.
@misc{louis2020 belgpt2 ,
author = {Louis, Antoine},
title = {{BelGPT-2: a GPT-2 model pre-trained on French corpora.}},
year = {2020},
howpublished = {url{https://github.com/antoiloui/belgpt2}},
}