bigscience
1.0.0
大語言模式研究研討會 - 語言模式之夏 21
目前我們有 2 個代碼倉庫:
目前,該儲存庫最活躍的部分是:
我們有針對特定方面的自述文件,例如:
雖然我們保留了一些主要培訓的實驗和發現的詳細記錄,但這裡有一個文檔,其中包含最重要發現的摘要: 經驗教訓
您可以透過在遠端日誌檔案上執行類似tail -f
的腳本來即時觀看訓練日誌,該腳本每小時同步到集線器一次:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
架構和擴展基線運行:沒有花俏的技巧,只有 GPT2。以下是各個張量板的連結:
尺寸 | 1B3 | 760M | 350M | 125M |
---|---|---|---|---|
C4+低熱身 | 一個 | 乙 | c | |
OSCAR + 低熱身 | f | |||
C4 + 高熱身 | e | |||
奧斯卡+高熱身 | d(目前基線) | 克 | 小時 | 我 |
樁+高位熱身 | 米 | j | k | 我 |
104B - 未修改的威震天 gpt2 - 具有超寬隱藏尺寸,以學習如何處理訓練不穩定性
您可以透過在遠端日誌檔案上執行類似tail -f
的腳本來即時觀看訓練日誌,該腳本每小時同步到集線器一次:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
這是目前主要的訓練
tr11-176B-ml
您可以透過在遠端日誌檔案上執行類似tail -f
的腳本來即時觀看訓練日誌,該腳本每小時同步到集線器一次:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt