رابط أركايف
لقد أظهر العمل الأخير مكاسب كبيرة في العديد من مهام ومعايير البرمجة اللغوية العصبية (NLP) من خلال التدريب المسبق على مجموعة كبيرة من النصوص يليها الضبط الدقيق لمهمة محددة. على الرغم من أن هذه الطريقة عادةً ما تكون غير محددة المهام في الهندسة المعمارية، إلا أنها لا تزال تتطلب مجموعات بيانات ضبط دقيقة خاصة بالمهمة تتكون من آلاف أو عشرات الآلاف من الأمثلة. على النقيض من ذلك، يمكن للبشر بشكل عام أداء مهمة لغوية جديدة من خلال أمثلة قليلة فقط أو من خلال تعليمات بسيطة - وهو الأمر الذي لا تزال أنظمة البرمجة اللغوية العصبية الحالية تكافح إلى حد كبير للقيام به. نوضح هنا أن توسيع نطاق نماذج اللغة يؤدي إلى تحسين كبير في أداء المهام غير الملحوظة، وفي بعض الأحيان يصل إلى القدرة التنافسية من خلال أساليب الضبط الدقيقة السابقة. على وجه التحديد، نقوم بتدريب GPT-3، وهو نموذج لغة انحدار ذاتي يحتوي على 175 مليار معلمة، أي أكثر بـ 10 مرات من أي نموذج لغة سابق غير متفرق، ونختبر أداءه في إعداد اللقطات القليلة. بالنسبة لجميع المهام، يتم تطبيق GPT-3 دون أي تحديثات متدرجة أو ضبط دقيق، مع تحديد المهام والعروض التوضيحية القليلة اللقطات فقط من خلال تفاعل النص مع النموذج. يحقق GPT-3 أداءً قويًا في العديد من مجموعات بيانات البرمجة اللغوية العصبية، بما في ذلك مهام الترجمة والإجابة على الأسئلة ومهام الإغلاق، بالإضافة إلى العديد من المهام التي تتطلب التفكير الفوري أو التكيف مع المجال، مثل فك رموز الكلمات، باستخدام كلمة جديدة في جملة، أو إجراء عملية حسابية مكونة من ثلاثة أرقام. في الوقت نفسه، حددنا أيضًا بعض مجموعات البيانات حيث لا يزال التعلم البسيط لـ GPT-3 يواجه صعوبات، بالإضافة إلى بعض مجموعات البيانات حيث يواجه GPT-3 مشكلات منهجية تتعلق بالتدريب على مجموعات الويب الكبيرة. أخيرًا، نجد أن GPT-3 يمكنه إنشاء عينات من المقالات الإخبارية التي يجد المقيمون البشريون صعوبة في تمييزها عن المقالات التي كتبها البشر. نناقش التأثيرات المجتمعية الأوسع لهذه النتيجة ولـ GPT-3 بشكل عام.
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}