gpt 3
1.0.0
arXiv 連結
最近的工作已經證明,透過對大量文字進行預訓練,然後對特定任務進行微調,在許多 NLP 任務和基準測試中取得了巨大的成果。雖然在架構中通常與任務無關,但該方法仍需要針對特定任務的數千或數萬個範例的資料集進行微調。相較之下,人類通常只需幾個例子或簡單的指令就可以執行新的語言任務,而目前的 NLP 系統在很大程度上仍然難以做到這一點。在這裡,我們表明,擴展語言模型極大地提高了與任務無關的、少量的效能,有時甚至達到了與先前最先進的微調方法的競爭力。具體來說,我們訓練了 GPT-3,這是一種具有 1750 億個參數的自回歸語言模型,比任何以前的非稀疏語言模型多 10 倍,並在少數樣本設定中測試其效能。對於所有任務,應用 GPT-3 時無需任何梯度更新或微調,任務和少量演示純粹透過與模型的文字互動來指定。 GPT-3 在許多 NLP 資料集上實現了強大的效能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,例如解讀單字、在文字中使用新單字。進行三位數算術。同時,我們也確定了一些 GPT-3 的少樣本學習仍然存在問題的資料集,以及一些 GPT-3 面臨與大型網路語料庫訓練相關的方法問題的資料集。最後,我們發現 GPT-3 可以產生人類評估者難以區分的新聞文章樣本和人類撰寫的文章。我們總體上討論了這項發現和 GPT-3 的更廣泛的社會影響。
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}