Lokakarya penelitian model bahasa besar - Musim Panas Model Bahasa 21
Saat ini kami memiliki 2 repo kode:
Saat ini, segmen paling aktif dari repo ini adalah:
Kami memiliki README untuk aspek tertentu, seperti:
Meskipun kami menyimpan kronik rinci eksperimen dan temuan untuk beberapa pelatihan utama, berikut adalah dokumen yang berisi ringkasan temuan paling penting: Pembelajaran
Anda dapat menonton log pelatihan secara langsung dengan menjalankan skrip seperti tail -f
ini melalui file log jarak jauh yang disinkronkan ke hub satu kali dalam satu jam:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
Arsitektur dan penskalaan dasar berjalan: tidak ada trik mewah, hanya GPT2. Berikut ini tautan ke masing-masing tensorboard:
Ukuran | 1B3 | 760M | 350M | 125M |
---|---|---|---|---|
C4 + pemanasan rendah | A | B | C | |
OSCAR + pemanasan rendah | F | |||
C4 + pemanasan tinggi | e | |||
OSCAR + pemanasan tinggi | d (garis dasar saat ini) | G | H | Saya |
Tumpukan + pemanasan tinggi | M | J | k | aku |
104B - Megatron gpt2 yang tidak dimodifikasi - dengan ukuran tersembunyi ekstra lebar untuk mempelajari cara menangani ketidakstabilan pelatihan
Anda dapat menonton log pelatihan secara langsung dengan menjalankan skrip seperti tail -f
ini melalui file log jarak jauh yang disinkronkan ke hub satu kali dalam satu jam:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
Ini adalah pelatihan utama saat ini
tr11-176B-ml
Anda dapat menonton log pelatihan secara langsung dengan menjalankan skrip seperti tail -f
ini melalui file log jarak jauh yang disinkronkan ke hub satu kali dalam satu jam:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt