ลิงก์ arXiv
งานล่าสุดได้แสดงให้เห็นถึงประโยชน์อย่างมากในงาน NLP และการวัดประสิทธิภาพโดยการฝึกอบรมล่วงหน้าเกี่ยวกับคลังข้อความขนาดใหญ่ ตามด้วยการปรับแต่งงานเฉพาะอย่างอย่างละเอียด แม้ว่าโดยทั่วไปจะไม่เชื่อเรื่องงานในสถาปัตยกรรม แต่วิธีนี้ยังคงต้องใช้ชุดข้อมูลที่ปรับแต่งเฉพาะงานซึ่งมีตัวอย่างนับพันหรือหลายหมื่นตัวอย่าง ในทางตรงกันข้าม โดยทั่วไปแล้ว มนุษย์สามารถทำงานด้านภาษาใหม่ได้จากตัวอย่างเพียงไม่กี่ตัวอย่างหรือจากคำแนะนำง่ายๆ ซึ่งเป็นสิ่งที่ระบบ NLP ในปัจจุบันยังคงพยายามดิ้นรนทำอยู่เป็นส่วนใหญ่ ที่นี่เราแสดงให้เห็นว่าการขยายขนาดโมเดลภาษาช่วยปรับปรุงประสิทธิภาพการทำงานเพียงไม่กี่ขั้นตอนที่ไม่เชื่อเรื่องงานได้อย่างมาก บางครั้งก็เพิ่มความสามารถในการแข่งขันด้วยแนวทางการปรับแต่งที่ล้ำสมัยก่อนหน้านี้ โดยเฉพาะอย่างยิ่ง เราฝึก GPT-3 ซึ่งเป็นโมเดลภาษาแบบถอยหลังอัตโนมัติด้วยพารามิเตอร์ 175 พันล้านพารามิเตอร์ ซึ่งมากกว่าโมเดลภาษาที่ไม่กระจัดกระจายใดๆ ก่อนหน้านี้ถึง 10 เท่า และทดสอบประสิทธิภาพในการตั้งค่าแบบไม่กี่ช็อต สำหรับงานทั้งหมด GPT-3 จะถูกนำไปใช้โดยไม่มีการอัปเดตการไล่ระดับสีหรือการปรับแต่งแบบละเอียด โดยระบุงานและการสาธิตแบบไม่กี่ช็อตโดยระบุผ่านการโต้ตอบข้อความกับโมเดลเท่านั้น GPT-3 บรรลุประสิทธิภาพที่ยอดเยี่ยมในชุดข้อมูล NLP จำนวนมาก รวมถึงการแปล การตอบคำถาม และงานปิดบัง เช่นเดียวกับงานหลายอย่างที่ต้องใช้การให้เหตุผลแบบทันทีหรือการปรับโดเมน เช่น การถอดรหัสคำ โดยใช้คำใหม่ใน ประโยคหรือการคำนวณเลข 3 หลัก ในเวลาเดียวกัน เรายังระบุชุดข้อมูลบางชุดที่การเรียนรู้แบบไม่กี่ขั้นตอนของ GPT-3 ยังคงประสบปัญหา เช่นเดียวกับชุดข้อมูลบางชุดที่ GPT-3 เผชิญกับปัญหาด้านระเบียบวิธีที่เกี่ยวข้องกับการฝึกอบรมบนเว็บคอร์ปอราขนาดใหญ่ สุดท้ายนี้ เราพบว่า GPT-3 สามารถสร้างตัวอย่างบทความข่าวที่ผู้ประเมินที่เป็นมนุษย์แยกแยะได้ยากจากบทความที่เขียนโดยมนุษย์ เราหารือเกี่ยวกับผลกระทบทางสังคมในวงกว้างของการค้นพบนี้และของ GPT-3 โดยทั่วไป
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}