lien arXiv
Des travaux récents ont démontré des gains substantiels sur de nombreuses tâches et points de référence en PNL grâce à une pré-formation sur un vaste corpus de texte suivie d'un réglage fin sur une tâche spécifique. Bien qu'elle soit généralement indépendante des tâches en termes d'architecture, cette méthode nécessite toujours des ensembles de données de réglage précis spécifiques à la tâche, composés de milliers ou de dizaines de milliers d'exemples. En revanche, les humains peuvent généralement effectuer une nouvelle tâche linguistique à partir de quelques exemples seulement ou d’instructions simples – ce que les systèmes PNL actuels ont encore largement du mal à faire. Nous montrons ici que la mise à l’échelle des modèles de langage améliore considérablement les performances en quelques tâches, indépendamment des tâches, atteignant parfois même la compétitivité avec les approches de réglage fin de pointe antérieures. Plus précisément, nous formons GPT-3, un modèle de langage autorégressif avec 175 milliards de paramètres, 10 fois plus que tout modèle de langage non clairsemé précédent, et testons ses performances dans le cadre de quelques tirs. Pour toutes les tâches, GPT-3 est appliqué sans aucune mise à jour du dégradé ni réglage fin, avec des tâches et des démonstrations en quelques plans spécifiées uniquement via une interaction textuelle avec le modèle. GPT-3 atteint de solides performances sur de nombreux ensembles de données PNL, y compris les tâches de traduction, de réponse aux questions et de clonage, ainsi que plusieurs tâches qui nécessitent un raisonnement à la volée ou une adaptation de domaine, comme le déchiffrement de mots, l'utilisation d'un nouveau mot dans un phrase ou effectuer une arithmétique à 3 chiffres. Dans le même temps, nous identifions également certains ensembles de données pour lesquels l'apprentissage en quelques étapes de GPT-3 peine encore, ainsi que certains ensembles de données dans lesquels GPT-3 est confronté à des problèmes méthodologiques liés à la formation sur de grands corpus Web. Enfin, nous constatons que GPT-3 peut générer des échantillons d’articles de presse que les évaluateurs humains ont du mal à distinguer des articles écrits par des humains. Nous discutons des impacts sociétaux plus larges de cette découverte et du GPT-3 en général.
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}