enlace arXiv
Trabajos recientes han demostrado avances sustanciales en muchas tareas y puntos de referencia de PNL mediante un entrenamiento previo en un gran corpus de texto seguido de un ajuste fino en una tarea específica. Si bien en la arquitectura suele ser independiente de las tareas, este método aún requiere conjuntos de datos de ajuste específico de la tarea de miles o decenas de miles de ejemplos. Por el contrario, los humanos generalmente pueden realizar una nueva tarea lingüística a partir de unos pocos ejemplos o de instrucciones sencillas, algo que los sistemas actuales de PNL todavía tienen dificultades para hacer. Aquí mostramos que la ampliación de los modelos de lenguaje mejora en gran medida el rendimiento independiente de las tareas y de pocas oportunidades, y a veces incluso alcanza la competitividad con enfoques de ajuste de última generación anteriores. Específicamente, entrenamos GPT-3, un modelo de lenguaje autorregresivo con 175 mil millones de parámetros, 10 veces más que cualquier modelo de lenguaje no disperso anterior, y probamos su rendimiento en una configuración de pocas tomas. Para todas las tareas, GPT-3 se aplica sin actualizaciones de gradiente ni ajustes, con tareas y demostraciones de pocas tomas especificadas únicamente mediante interacción de texto con el modelo. GPT-3 logra un rendimiento sólido en muchos conjuntos de datos de PNL, incluidas tareas de traducción, respuesta a preguntas y cierre, así como en varias tareas que requieren razonamiento sobre la marcha o adaptación de dominio, como descifrar palabras, usar una palabra novedosa en un oración o realizar aritmética de 3 dígitos. Al mismo tiempo, también identificamos algunos conjuntos de datos en los que el aprendizaje de pocas oportunidades de GPT-3 todavía tiene problemas, así como algunos conjuntos de datos en los que GPT-3 enfrenta problemas metodológicos relacionados con el entrenamiento en grandes corpus web. Finalmente, encontramos que GPT-3 puede generar muestras de artículos de noticias que los evaluadores humanos tienen dificultades para distinguir de los artículos escritos por humanos. Discutimos los impactos sociales más amplios de este hallazgo y de GPT-3 en general.
@article{brown2020language,
title={Language Models are Few-Shot Learners},
author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei},
year={2020},
eprint={2005.14165},
archivePrefix={arXiv},
primaryClass={cs.CL}
}