gpt 2
1.0.0
状态:存档(代码按原样提供,预计不会更新)
论文“语言模型是无监督多任务学习者”中的代码和模型。
您可以在我们的原始博文、6 个月的后续博文和最终博文中了解有关 GPT-2 及其分阶段发布的信息。
我们还发布了一个数据集,供研究人员研究他们的行为。
*请注意,由于错误(在我们之前的博客文章和论文中),我们的原始参数计数是错误的。因此,您可能看到过称为 117M 的小型和称为 345M 的中型。
该存储库旨在成为研究人员和工程师尝试 GPT-2 的起点。
有关基本信息,请参阅我们的型号卡。
如果您正在对 GPT-2 进行有趣的研究或致力于 GPT-2 的应用,请告诉我们!我们特别有兴趣听取正在学习的人的意见并可能与他们一起工作
请参阅 DEVELOPERS.md
请参阅 CONTRIBUTORS.md
请使用以下 bibtex 条目:
@article{radford2019language,
title={Language Models are Unsupervised Multitask Learners},
author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
year={2019}
}
我们可能会发布用于在各种基准上评估模型的代码。
我们仍在考虑发布更大的型号。
改良麻省理工学院