Forschungsworkshop zu großen Sprachmodellen – Der Sommer der Sprachmodelle 21
Im Moment haben wir 2 Code-Repos:
Derzeit sind die aktivsten Segmente dieses Repos:
Wir haben READMEs für bestimmte Aspekte, wie zum Beispiel:
Während wir für einige der Hauptschulungen detaillierte Chroniken der Experimente und Ergebnisse führen, finden Sie hier ein Dokument, das eine Zusammenfassung der wichtigsten Ergebnisse enthält: Gelernte Lektionen
Sie können die Trainingsprotokolle live ansehen, indem Sie dieses tail -f
ähnliche Skript über eine Remote-Protokolldatei ausführen, die einmal pro Stunde mit dem Hub synchronisiert wird:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
Architektur- und Skalierungsbasislinienläufe: keine ausgefallenen Tricks, nur GPT2. Hier sind Links zu den jeweiligen Tensorboards:
Größe | 1B3 | 760M | 350M | 125M |
---|---|---|---|---|
C4 + niedriges Aufwärmen | A | B | C | |
OSCAR + niedriges Aufwärmen | F | |||
C4 + hohes Aufwärmen | e | |||
OSCAR + hohes Aufwärmen | d (aktuelle Basislinie) | G | H | ich |
Stapel + hohes Aufwärmen | M | J | k | l |
104B – unmodifizierter Megatron gpt2 – mit extra breiter versteckter Größe zum Erlernen des Umgangs mit Trainingsinstabilitäten
Sie können die Trainingsprotokolle live ansehen, indem Sie dieses tail -f
ähnliche Skript über eine Remote-Protokolldatei ausführen, die einmal pro Stunde mit dem Hub synchronisiert wird:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
Dies ist die aktuelle Hauptausbildung
tr11-176B-ml
Sie können die Trainingsprotokolle live ansehen, indem Sie dieses tail -f
ähnliche Skript über eine Remote-Protokolldatei ausführen, die einmal pro Stunde mit dem Hub synchronisiert wird:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt