bigscience
1.0.0
大規模言語モデルに関する研究ワークショップ - 言語モデルの夏 21
現時点では 2 つのコード リポジトリがあります。
現在、このリポジトリで最もアクティブなセグメントは次のとおりです。
次のような特定の側面に関する README を用意しています。
私たちはいくつかの主要なトレーニングの実験と発見の詳細な記録を保管していますが、最も重要な発見の概要を含むドキュメントは次のとおりです。
1 時間に 1 回ハブに同期されるリモート ログ ファイルに対してこのtail -f
のようなスクリプトを実行すると、トレーニング ログをライブで監視できます。
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
アーキテクチャとスケーリングのベースライン実行: 派手なトリックはなく、GPT2 のみです。それぞれのテンソルボードへのリンクは次のとおりです。
サイズ | 1B3 | 760M | 350M | 125M |
---|---|---|---|---|
C4 + 低ウォームアップ | ある | b | c | |
OSCAR + 低ウォームアップ | f | |||
C4 + 高ウォームアップ | e | |||
OSCAR + 高いウォームアップ | d (現在のベースライン) | g | h | 私 |
パイル+ハイウォームアップ | メートル | j | k | 私 |
104B - 未修正 Megatron gpt2 - トレーニングの不安定性に対処する方法を学ぶための非常に広い隠しサイズを備えています
1 時間に 1 回ハブに同期されるリモート ログ ファイルに対してこのtail -f
のようなスクリプトを実行すると、トレーニング ログをライブで監視できます。
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
現在のメイントレーニングです
tr11-176B-ml
1 時間に 1 回ハブに同期されるリモート ログ ファイルに対してこのtail -f
のようなスクリプトを実行すると、トレーニング ログをライブで監視できます。
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt