Status: Arquivo (o código é fornecido como está, nenhuma atualização é esperada)
Código e modelos do artigo "Modelos de linguagem são alunos multitarefa não supervisionados".
Você pode ler sobre o GPT-2 e seu lançamento gradual em nossa postagem original do blog, na postagem de acompanhamento de 6 meses e na postagem final.
Também lançamos um conjunto de dados para os pesquisadores estudarem seus comportamentos.
* Observe que nossas contagens de parâmetros originais estavam erradas devido a um erro (em nossas postagens e artigos anteriores). Portanto, você deve ter visto o pequeno chamado 117M e o médio chamado 345M.
Este repositório pretende ser um ponto de partida para pesquisadores e engenheiros experimentarem o GPT-2.
Para obter informações básicas, consulte nosso cartão de modelo.
Informe-nos se você estiver fazendo pesquisas interessantes ou trabalhando em aplicações do GPT-2! Estamos especialmente interessados em ouvir e potencialmente trabalhar com aqueles que estão estudando
Veja DESENVOLVEDORES.md
Veja CONTRIBUIDORES.md
Por favor use a seguinte entrada do bibtex:
@article{radford2019language,
title={Language Models are Unsupervised Multitask Learners},
author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
year={2019}
}
Podemos lançar código para avaliar os modelos em vários benchmarks.
Ainda estamos considerando o lançamento dos modelos maiores.
MIT modificado