Taller de investigación sobre grandes modelos lingüísticos - El verano de los modelos lingüísticos 21
Por el momento tenemos 2 repositorios de código:
Actualmente, los segmentos más activos de este repositorio son:
Disponemos de README para aspectos específicos, tales como:
Si bien mantenemos crónicas detalladas de los experimentos y hallazgos de algunas de las capacitaciones principales, aquí hay un documento que contiene un resumen de los hallazgos más importantes: Lecciones aprendidas
Puede ver los registros de entrenamiento en vivo ejecutando este script similar tail -f
en un archivo de registro remoto que se sincroniza con el centro una vez por hora:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
Ejecuciones de referencia de arquitectura y escalado: sin trucos sofisticados, solo GPT2. Aquí hay enlaces a los respectivos tensorboards:
Tamaño | 1B3 | 760M | 350M | 125M |
---|---|---|---|---|
C4 + calentamiento bajo | a | b | do | |
OSCAR + calentamiento bajo | F | |||
C4 + calentamiento alto | mi | |||
OSCAR + calentamiento alto | d (línea de base actual) | gramo | h | i |
Pila + calentamiento alto | metro | j | k | yo |
104B - Megatron gpt2 sin modificar - con tamaño oculto extra ancho para aprender a lidiar con las inestabilidades del entrenamiento
Puede ver los registros de entrenamiento en vivo ejecutando este script similar tail -f
en un archivo de registro remoto que se sincroniza con el centro una vez por hora:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
Esta es la principal formación actual.
tr11-176B-ml
Puede ver los registros de entrenamiento en vivo ejecutando este script similar tail -f
en un archivo de registro remoto que se sincroniza con el centro una vez por hora:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt