Statut : Archive (le code est fourni tel quel, aucune mise à jour n'est prévue)
Code et modèles de l'article "Les modèles linguistiques sont des apprenants multitâches non supervisés".
Vous pouvez en savoir plus sur GPT-2 et sa publication par étapes dans notre article de blog original, notre article de suivi de 6 mois et notre article final.
Nous avons également publié un ensemble de données permettant aux chercheurs d'étudier leurs comportements.
* Notez que nos décomptes de paramètres d'origine étaient erronés en raison d'une erreur (dans nos précédents articles de blog et articles). Ainsi, vous avez peut-être vu un petit appelé 117M et un moyen appelé 345M.
Ce référentiel est destiné à être un point de départ permettant aux chercheurs et aux ingénieurs d'expérimenter GPT-2.
Pour des informations de base, consultez notre fiche modèle.
Veuillez nous faire savoir si vous effectuez des recherches intéressantes avec ou si vous travaillez sur des applications de GPT-2 ! Nous sommes particulièrement intéressés à entendre et éventuellement à travailler avec ceux qui étudient
Voir DEVELOPERS.md
Voir CONTRIBUTEURS.md
Veuillez utiliser l'entrée Bibtex suivante :
@article{radford2019language,
title={Language Models are Unsupervised Multitask Learners},
author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
year={2019}
}
Nous pouvons publier du code pour évaluer les modèles sur divers benchmarks.
Nous envisageons toujours la sortie des modèles plus grands.
MIT modifié