bigscience ดาวน์โหลด - bigscience ดาวน์โหลดซอร์สโค้ด

bigscience

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

วิทยาศาสตร์ที่ยิ่งใหญ่

การประชุมเชิงปฏิบัติการวิจัยเกี่ยวกับแบบจำลองภาษาขนาดใหญ่ - ฤดูร้อนของแบบจำลองภาษา 21

ในขณะนี้เรามี 2 รหัส repos:

https://github.com/bigscience-workshop/Megatron-DeepSpeed - นี่คือฐานโค้ดหลักของเรา
https://github.com/bigscience-workshop/bigscience - (repo นี้) สำหรับทุกสิ่งทุกอย่าง - เอกสาร การทดลอง ฯลฯ

ปัจจุบันกลุ่มที่มีการใช้งานมากที่สุดของ repo นี้คือ:

JZ - ข้อมูลมากมายเกี่ยวกับสภาพแวดล้อมการทำงานของเราซึ่งช่วยประเมิน วางแผน และทำสิ่งต่างๆ ให้สำเร็จ
การทดลอง - มีการทดลองหลายอย่างเกิดขึ้น เอกสาร ตารางผลลัพธ์ สคริปต์ และบันทึกทั้งหมดอยู่ที่นั่น
ข้อมูลชุดข้อมูล
รถไฟ - ข้อมูลทั้งหมดเกี่ยวกับการฝึกอบรมปัจจุบัน (ดูข้อมูลที่สำคัญที่สุดด้านล่าง)

เรามี README สำหรับด้านเฉพาะ เช่น:

บูรณาการฮับ

การฝึกอบรม

แม้ว่าเราจะเก็บบันทึกเหตุการณ์โดยละเอียดของการทดลองและการค้นพบสำหรับการฝึกอบรมหลักบางส่วน แต่นี่คือเอกสารที่ประกอบด้วยบทสรุปของการค้นพบที่สำคัญที่สุด: บทเรียนที่ได้รับ

รถไฟ 1 - 13B - Megatron gpt2 ที่ไม่ได้แก้ไข - พื้นฐาน

ข้อมูลจำเพาะและการสนทนาแบบเต็ม
สคริปต์การฝึกอบรม
จุดตรวจและบันทึก:
- เทนเซอร์บอร์ด
- บันทึก
พงศาวดาร

คุณสามารถดูบันทึกการฝึกอบรมแบบสดได้โดยการรันสคริปต์ tail -f like บนไฟล์บันทึกระยะไกลที่ซิงค์กับฮับชั่วโมงละครั้ง:

 perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/; 
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}' 
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt

รถไฟขบวนที่ 3

สถาปัตยกรรมและการปรับขนาดพื้นฐาน: ไม่มีลูกเล่นแฟนซี มีเพียง GPT2 ต่อไปนี้เป็นลิงก์ไปยังเทนเซอร์บอร์ดที่เกี่ยวข้อง:

ขนาด	1B3	760ม	350ม	125ม
C4 + วอร์มอัพต่ำ	ก	ข	ค
OSCAR + วอร์มอัพต่ำ	ฉ
C4 + วอร์มอัพสูง	จ
ออสการ์ + วอร์มอัพสูง	d (พื้นฐานปัจจุบัน)	ก	ชม.	ฉัน
กอง + อุ่นเครื่องสูง	ม	เจ	เค	ล

รถไฟขบวนที่ 8

104B - Megatron gpt2 ที่ไม่มีการดัดแปลง - พร้อมขนาดซ่อนที่กว้างเป็นพิเศษเพื่อเรียนรู้วิธีจัดการกับความไม่เสถียรในการฝึก

ข้อมูลจำเพาะและการสนทนาแบบเต็ม
สคริปต์การฝึกอบรม
จุดตรวจและบันทึก:
- เทนเซอร์บอร์ด
- บันทึก
พงศาวดาร

คุณสามารถดูบันทึกการฝึกอบรมแบบสดได้โดยการรันสคริปต์ tail -f like บนไฟล์บันทึกระยะไกลที่ซิงค์กับฮับชั่วโมงละครั้ง:

 perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/; 
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}' 
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9

รถไฟขบวนที่ 11

นี่คือการฝึกอบรมหลักในปัจจุบัน

tr11-176B-มล

ข้อมูลจำเพาะและการสนทนาแบบเต็ม
สคริปต์การฝึกอบรม
จุดตรวจและบันทึก:
- เทนเซอร์บอร์ด
- บันทึก
พงศาวดาร-prequel
พงศาวดาร

คุณสามารถดูบันทึกการฝึกอบรมแบบสดได้โดยการรันสคริปต์ tail -f like บนไฟล์บันทึกระยะไกลที่ซิงค์กับฮับชั่วโมงละครั้ง:

 perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s; 
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}' 
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-11-28
ขนาด 2.45MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด