gpt 3
1.0.0
arXiv 链接
最近的工作已经证明,通过对大量文本进行预训练,然后对特定任务进行微调,在许多 NLP 任务和基准测试中取得了巨大的成果。虽然在架构中通常与任务无关,但该方法仍然需要针对特定任务的数千或数万个示例的数据集进行微调。相比之下,人类通常只需几个例子或简单的指令就可以执行新的语言任务,而当前的 NLP 系统在很大程度上仍然难以做到这一点。在这里,我们表明,扩展语言模型极大地提高了与任务无关的、少量的性能,有时甚至达到了与先前最先进的微调方法的竞争力。具体来说,我们训练了 GPT-3,这是一种具有 1750 亿个参数的自回归语言模型,比任何以前的非稀疏语言模型多 10 倍,并在少数样本设置中测试其性能。对于所有任务,应用 GPT-3 时无需任何梯度更新或微调,任务和少量演示纯粹通过与模型的文本交互来指定。 GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解读单词、在文本中使用新单词。句子,或进行三位数算术。同时,我们还确定了一些 GPT-3 的少样本学习仍然存在问题的数据集,以及一些 GPT-3 面临与大型网络语料库训练相关的方法问题的数据集。最后,我们发现 GPT-3 可以生成人类评估者难以区分的新闻文章样本和人类撰写的文章。我们总体上讨论了这一发现和 GPT-3 的更广泛的社会影响。
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}