arXiv リンク
最近の研究では、大規模なテキスト コーパスでの事前トレーニングとその後の特定のタスクでの微調整によって、多くの NLP タスクとベンチマークで大幅な向上が実証されました。通常、アーキテクチャではタスクに依存しませんが、この方法でも、数千または数万のサンプルからなるタスク固有の微調整データセットが必要です。対照的に、人間は通常、わずかな例や単純な指示から新しい言語タスクを実行できますが、これは現在の NLP システムでは依然としてほとんどの場合困難です。ここでは、言語モデルをスケールアップすると、タスクに依存しない少数ショットのパフォーマンスが大幅に向上し、場合によっては、従来の最先端の微調整アプローチとの競争力に達することさえあることを示します。具体的には、これまでの非スパース言語モデルの 10 倍にあたる 1,750 億個のパラメーターを持つ自己回帰言語モデルである GPT-3 をトレーニングし、そのパフォーマンスを少数ショット設定でテストします。すべてのタスクに対して、GPT-3 は勾配更新や微調整なしで適用され、タスクと数ショットのデモンストレーションは純粋にモデルとのテキスト対話によって指定されます。 GPT-3 は、翻訳、質問応答、クローズ タスクなどの多くの NLP データセットで優れたパフォーマンスを実現します。また、新しい単語を使用して、単語のスクランブルを解除するなど、オンザフライ推論やドメイン適応を必要とするいくつかのタスクでも優れたパフォーマンスを実現します。文章を書いたり、3桁の算術を実行したりする。同時に、GPT-3 の数ショット学習が依然として困難な一部のデータセットや、GPT-3 が大規模な Web コーパスでのトレーニングに関連する方法論的な問題に直面しているデータセットも特定します。最後に、GPT-3 は、人間の評価者が人間によって書かれた記事と区別するのが難しいニュース記事のサンプルを生成できることがわかりました。私たちは、この発見と GPT-3 全般のより広範な社会的影響について議論します。
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}