bigscience
1.0.0
大语言模型研究研讨会 - 语言模型之夏 21
目前我们有 2 个代码仓库:
目前,该存储库最活跃的部分是:
我们有针对特定方面的自述文件,例如:
虽然我们保留了一些主要培训的实验和发现的详细记录,但这里有一个文档,其中包含最重要发现的摘要: 经验教训
您可以通过在远程日志文件上运行类似tail -f
的脚本来实时观看训练日志,该脚本每小时同步到集线器一次:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
架构和扩展基线运行:没有花哨的技巧,只有 GPT2。以下是各个张量板的链接:
尺寸 | 1B3 | 760M | 350M | 125M |
---|---|---|---|---|
C4+低热身 | 一个 | 乙 | c | |
OSCAR + 低热身 | f | |||
C4 + 高热身 | e | |||
奥斯卡+高热身 | d(当前基线) | 克 | 小时 | 我 |
桩+高位热身 | 米 | j | k | 我 |
104B - 未修改的威震天 gpt2 - 具有超宽隐藏尺寸,以学习如何处理训练不稳定性
您可以通过在远程日志文件上运行类似tail -f
的脚本来实时观看训练日志,该脚本每小时同步到集线器一次:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
这是目前主要的训练
tr11-176B-ml
您可以通过在远程日志文件上运行类似tail -f
的脚本来实时观看训练日志,该脚本每小时同步到集线器一次:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt