ссылка на arXiv
Недавняя работа продемонстрировала существенные успехи во многих задачах и тестах НЛП за счет предварительного обучения на большом корпусе текста с последующей тонкой настройкой для конкретной задачи. Несмотря на то, что архитектура этого метода обычно не зависит от задачи, он по-прежнему требует наборов данных точной настройки для конкретных задач, состоящих из тысяч или десятков тысяч примеров. Напротив, люди, как правило, могут выполнить новую языковую задачу, используя лишь несколько примеров или простые инструкции – то, с чем современные системы НЛП до сих пор в значительной степени с трудом справляются. Здесь мы показываем, что масштабирование языковых моделей значительно повышает производительность, независимую от задач, и иногда даже достигает конкурентоспособности с помощью современных подходов к тонкой настройке. В частности, мы обучаем GPT-3, авторегрессионную языковую модель со 175 миллиардами параметров, что в 10 раз больше, чем любая предыдущая неразреженная языковая модель, и тестируем ее производительность в условиях нескольких шагов. Для всех задач применяется GPT-3 без каких-либо обновлений градиента или тонкой настройки, при этом задачи и демонстрации из нескольких кадров задаются исключительно посредством текстового взаимодействия с моделью. GPT-3 обеспечивает высокую производительность при работе со многими наборами данных НЛП, включая задачи перевода, ответа на вопросы и закрытия, а также несколько задач, требующих оперативного рассуждения или адаптации предметной области, таких как расшифровка слов, использование нового слова в предложение или выполнение трехзначной арифметики. В то же время мы также определяем некоторые наборы данных, в которых обучение с помощью нескольких шагов GPT-3 все еще затруднено, а также некоторые наборы данных, в которых GPT-3 сталкивается с методологическими проблемами, связанными с обучением в крупных веб-корпорациях. Наконец, мы обнаружили, что GPT-3 может генерировать образцы новостных статей, которые оценщикам-людям трудно отличить от статей, написанных людьми. Мы обсуждаем более широкие социальные последствия этого открытия и GPT-3 в целом.
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}