Atelier de recherche sur les grands modèles de langage - The Summer of Language Models 21
Pour le moment, nous avons 2 dépôts de code :
Actuellement, les segments les plus actifs de ce dépôt sont :
Nous avons des README pour des aspects spécifiques, tels que :
Alors que nous conservons des chroniques détaillées des expériences et des résultats pour certaines des principales formations, voici un document qui contient un résumé des résultats les plus importants : Leçons apprises
Vous pouvez regarder les journaux d'entraînement en direct en exécutant ce script de type tail -f
sur un fichier journal distant qui est synchronisé avec le hub une fois par heure :
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
Exécutions de base d'architecture et de mise à l'échelle : pas d'astuces sophistiquées, juste GPT2. Voici les liens vers les tensorboards respectifs :
Taille | 1B3 | 760M | 350M | 125M |
---|---|---|---|---|
C4 + échauffement faible | un | b | c | |
OSCAR + échauffement faible | f | |||
C4 + échauffement élevé | e | |||
OSCAR + échauffement élevé | d (référence actuelle) | g | h | je |
Pile + échauffement élevé | m | j | k | je |
104B - Megatron gpt2 non modifié - avec une taille cachée extra-large pour apprendre à gérer les instabilités d'entraînement
Vous pouvez regarder les journaux d'entraînement en direct en exécutant ce script de type tail -f
sur un fichier journal distant qui est synchronisé avec le hub une fois par heure :
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
C'est la formation principale actuelle
tr11-176B-ml
Vous pouvez regarder les journaux d'entraînement en direct en exécutant ce script de type tail -f
sur un fichier journal distant qui est synchronisé avec le hub une fois par heure :
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt