arXiv-Link
Jüngste Arbeiten haben erhebliche Fortschritte bei vielen NLP-Aufgaben und -Benchmarks gezeigt, indem vorab an einem großen Textkorpus trainiert und anschließend eine Feinabstimmung auf eine bestimmte Aufgabe vorgenommen wurde. Obwohl diese Methode in der Architektur typischerweise aufgabenunabhängig ist, erfordert sie dennoch aufgabenspezifische Feinabstimmungsdatensätze mit Tausenden oder Zehntausenden von Beispielen. Im Gegensatz dazu können Menschen eine neue Sprachaufgabe im Allgemeinen nur anhand weniger Beispiele oder einfacher Anweisungen ausführen – etwas, womit aktuelle NLP-Systeme immer noch große Schwierigkeiten haben. Hier zeigen wir, dass die Skalierung von Sprachmodellen die aufgabenunabhängige Leistung mit wenigen Schüssen erheblich verbessert und manchmal sogar die Wettbewerbsfähigkeit mit früheren Feinabstimmungsansätzen auf dem neuesten Stand der Technik erreicht. Konkret trainieren wir GPT-3, ein autoregressives Sprachmodell mit 175 Milliarden Parametern, zehnmal mehr als jedes frühere nicht-sparse Sprachmodell, und testen seine Leistung in der Few-Shot-Umgebung. Für alle Aufgaben wird GPT-3 ohne Verlaufsaktualisierungen oder Feinabstimmung angewendet, wobei Aufgaben und Wenig-Schuss-Demonstrationen ausschließlich über Textinteraktion mit dem Modell spezifiziert werden. GPT-3 erzielt eine starke Leistung bei vielen NLP-Datensätzen, einschließlich Übersetzungs-, Frage-Antwort- und Lückentextaufgaben sowie bei mehreren Aufgaben, die schnelles Denken oder Domänenanpassungen erfordern, wie z. B. das Entschlüsseln von Wörtern oder die Verwendung eines neuen Wortes in einem einen Satz eingeben oder eine dreistellige Arithmetik ausführen. Gleichzeitig identifizieren wir auch einige Datensätze, bei denen das Wenig-Schuss-Lernen von GPT-3 immer noch Probleme bereitet, sowie einige Datensätze, bei denen GPT-3 mit methodischen Problemen im Zusammenhang mit dem Training in großen Webkorpora konfrontiert ist. Schließlich stellen wir fest, dass GPT-3 Stichproben von Nachrichtenartikeln generieren kann, die menschliche Bewerter nur schwer von Artikeln unterscheiden können, die von Menschen geschrieben wurden. Wir diskutieren die umfassenderen gesellschaftlichen Auswirkungen dieses Befundes und von GPT-3 im Allgemeinen.
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}