Estado: Archivado (el código se proporciona tal cual, no se esperan actualizaciones)
Código y modelos del artículo "Los modelos de lenguaje son estudiantes multitarea sin supervisión".
Puede leer sobre GPT-2 y su lanzamiento por etapas en nuestra publicación de blog original, publicación de seguimiento de 6 meses y publicación final.
También hemos publicado un conjunto de datos para que los investigadores estudien sus comportamientos.
* Tenga en cuenta que nuestros recuentos de parámetros originales fueron incorrectos debido a un error (en nuestras publicaciones y artículos de blog anteriores). Por lo tanto, es posible que haya visto el tamaño pequeño denominado 117M y el mediano denominado 345M.
Este repositorio pretende ser un punto de partida para que investigadores e ingenieros experimenten con GPT-2.
Para obtener información básica, consulte nuestra tarjeta de modelo.
¡Háganos saber si está realizando una investigación interesante o trabajando en aplicaciones de GPT-2! Estamos especialmente interesados en escuchar y potencialmente trabajar con aquellos que están estudiando
Ver DESARROLLADORES.md
Ver CONTRIBUTORS.md
Utilice la siguiente entrada bibtex:
@article{radford2019language,
title={Language Models are Unsupervised Multitask Learners},
author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
year={2019}
}
Es posible que publiquemos código para evaluar los modelos en varios puntos de referencia.
Todavía estamos considerando el lanzamiento de los modelos más grandes.
MIT modificado