tautan arXiv
Pekerjaan terbaru telah menunjukkan kemajuan besar pada banyak tugas dan tolok ukur NLP dengan melakukan pra-pelatihan pada kumpulan teks yang besar diikuti dengan penyesuaian pada tugas tertentu. Meskipun biasanya bersifat agnostik tugas dalam arsitektur, metode ini masih memerlukan ribuan atau puluhan ribu kumpulan data penyesuaian khusus tugas. Sebaliknya, manusia pada umumnya dapat melakukan tugas bahasa baru hanya dengan beberapa contoh atau dari instruksi sederhana – sesuatu yang masih sulit dilakukan oleh sistem NLP saat ini. Di sini kami menunjukkan bahwa peningkatan model bahasa sangat meningkatkan kinerja yang tidak memerlukan tugas dan tidak memerlukan banyak tugas, bahkan kadang-kadang mencapai daya saing dengan pendekatan penyempurnaan canggih sebelumnya. Secara khusus, kami melatih GPT-3, model bahasa autoregresif dengan 175 miliar parameter, 10x lebih banyak dibandingkan model bahasa non-sparse sebelumnya, dan menguji performanya dalam setelan beberapa kali. Untuk semua tugas, GPT-3 diterapkan tanpa pembaruan gradien atau penyesuaian apa pun, dengan tugas dan demonstrasi beberapa langkah ditentukan murni melalui interaksi teks dengan model. GPT-3 mencapai performa yang kuat di banyak kumpulan data NLP, termasuk tugas penerjemahan, menjawab pertanyaan, dan cloze, serta beberapa tugas yang memerlukan penalaran langsung atau adaptasi domain, seperti menguraikan kata, menggunakan kata baru dalam sebuah kalimat, atau melakukan aritmatika 3 digit. Pada saat yang sama, kami juga mengidentifikasi beberapa kumpulan data di mana pembelajaran beberapa langkah GPT-3 masih mengalami kesulitan, serta beberapa kumpulan data di mana GPT-3 menghadapi masalah metodologis terkait dengan pelatihan pada korpora web besar. Terakhir, kami menemukan bahwa GPT-3 dapat menghasilkan sampel artikel berita yang sulit dibedakan oleh penilai manusia dengan artikel yang ditulis oleh manusia. Kami membahas dampak sosial yang lebih luas dari temuan ini dan GPT-3 secara umum.
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}