การประชุมเชิงปฏิบัติการวิจัยเกี่ยวกับแบบจำลองภาษาขนาดใหญ่ - ฤดูร้อนของแบบจำลองภาษา 21
ในขณะนี้เรามี 2 รหัส repos:
ปัจจุบันกลุ่มที่มีการใช้งานมากที่สุดของ repo นี้คือ:
เรามี README สำหรับด้านเฉพาะ เช่น:
แม้ว่าเราจะเก็บบันทึกเหตุการณ์โดยละเอียดของการทดลองและการค้นพบสำหรับการฝึกอบรมหลักบางส่วน แต่นี่คือเอกสารที่ประกอบด้วยบทสรุปของการค้นพบที่สำคัญที่สุด: บทเรียนที่ได้รับ
คุณสามารถดูบันทึกการฝึกอบรมแบบสดได้โดยการรันสคริปต์ tail -f
like บนไฟล์บันทึกระยะไกลที่ซิงค์กับฮับชั่วโมงละครั้ง:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
สถาปัตยกรรมและการปรับขนาดพื้นฐาน: ไม่มีลูกเล่นแฟนซี มีเพียง GPT2 ต่อไปนี้เป็นลิงก์ไปยังเทนเซอร์บอร์ดที่เกี่ยวข้อง:
ขนาด | 1B3 | 760ม | 350ม | 125ม |
---|---|---|---|---|
C4 + วอร์มอัพต่ำ | ก | ข | ค | |
OSCAR + วอร์มอัพต่ำ | ฉ | |||
C4 + วอร์มอัพสูง | จ | |||
ออสการ์ + วอร์มอัพสูง | d (พื้นฐานปัจจุบัน) | ก | ชม. | ฉัน |
กอง + อุ่นเครื่องสูง | ม | เจ | เค | ล |
104B - Megatron gpt2 ที่ไม่มีการดัดแปลง - พร้อมขนาดซ่อนที่กว้างเป็นพิเศษเพื่อเรียนรู้วิธีจัดการกับความไม่เสถียรในการฝึก
คุณสามารถดูบันทึกการฝึกอบรมแบบสดได้โดยการรันสคริปต์ tail -f
like บนไฟล์บันทึกระยะไกลที่ซิงค์กับฮับชั่วโมงละครั้ง:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
นี่คือการฝึกอบรมหลักในปัจจุบัน
tr11-176B-มล
คุณสามารถดูบันทึกการฝึกอบรมแบบสดได้โดยการรันสคริปต์ tail -f
like บนไฟล์บันทึกระยะไกลที่ซิงค์กับฮับชั่วโมงละครั้ง:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt