arXiv 링크
최근 작업에서는 대규모 텍스트 모음에 대한 사전 학습과 특정 작업에 대한 미세 조정을 통해 많은 NLP 작업 및 벤치마크에서 상당한 이점을 얻었습니다. 일반적으로 아키텍처에서는 작업에 구애받지 않지만 이 방법에는 여전히 수천 또는 수만 개의 예제로 구성된 작업별 미세 조정 데이터세트가 필요합니다. 대조적으로, 인간은 일반적으로 단지 몇 가지 예나 간단한 지시만으로 새로운 언어 작업을 수행할 수 있습니다. 이는 현재 NLP 시스템이 여전히 수행하는 데 어려움을 겪고 있습니다. 여기에서는 언어 모델을 확장하면 작업에 구애받지 않고 몇 번의 샷 성능이 크게 향상되며 때로는 이전의 최첨단 미세 조정 접근 방식으로 경쟁력에 도달할 수도 있음을 보여줍니다. 구체적으로 우리는 이전의 비희소 언어 모델보다 10배 더 많은 1,750억 개의 매개변수를 갖춘 자동 회귀 언어 모델인 GPT-3를 훈련하고 소수 설정에서 성능을 테스트합니다. 모든 작업에 대해 GPT-3는 그라데이션 업데이트나 미세 조정 없이 적용되며 작업 및 몇 번의 데모는 모델과의 텍스트 상호 작용을 통해 순수하게 지정됩니다. GPT-3는 번역, 질문 답변, 클로즈 작업을 포함한 많은 NLP 데이터 세트뿐만 아니라 단어 해독, 새로운 단어 사용과 같은 즉석 추론이나 도메인 적응이 필요한 여러 작업에서 강력한 성능을 달성합니다. 문장을 읽거나 세 자리 연산을 수행합니다. 동시에 우리는 GPT-3의 퓨샷 학습이 여전히 어려움을 겪고 있는 일부 데이터 세트와 GPT-3가 대규모 웹 말뭉치에 대한 교육과 관련된 방법론적 문제에 직면한 일부 데이터 세트도 식별합니다. 마지막으로, 우리는 GPT-3가 인간 평가자가 인간이 작성한 기사와 구별하기 어려운 뉴스 기사 샘플을 생성할 수 있음을 발견했습니다. 우리는 이번 발견과 GPT-3의 전반적인 사회적 영향에 대해 논의합니다.
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}