belgpt2
1.0.0
Um modelo GPT-2 pré-treinado em um corpus francês muito grande e heterogêneo (~60Gb).
Você pode usar o BelGPT-2 com? Biblioteca de transformadores da seguinte forma:
import torch
from transformers import GPT2Tokenizer , GPT2LMHeadModel
# Load pretrained model and tokenizer
model = GPT2LMHeadModel . from_pretrained ( "antoiloui/ belgpt2 " )
tokenizer = GPT2Tokenizer . from_pretrained ( "antoiloui/ belgpt2 " )
# Generate a sample of text
model . eval ()
output = model . generate (
bos_token_id = random . randint ( 1 , 50000 ),
do_sample = True ,
top_k = 50 ,
max_length = 100 ,
top_p = 0.95 ,
num_return_sequences = 1
)
# Decode it
decoded_output = []
for sample in output :
decoded_output . append ( tokenizer . decode ( sample , skip_special_tokens = True ))
print ( decoded_output )
A documentação detalhada sobre o modelo pré-treinado, sua implementação e os dados pode ser encontrada aqui.
Para atribuição em contextos acadêmicos, cite este trabalho como:
@misc{louis2020 belgpt2 ,
author = {Louis, Antoine},
title = {{BelGPT-2: a GPT-2 model pre-trained on French corpora.}},
year = {2020},
howpublished = {url{https://github.com/antoiloui/belgpt2}},
}