تنزيل bigscience - تحميل كود مصدر bigscience

bigscience

شفرة المصدر الأخرى

1.0.0

تنزيل

com.bigscience

ورشة عمل بحثية حول النماذج اللغوية الكبيرة - صيف النماذج اللغوية 21

في الوقت الحالي لدينا نسختان من الكود:

https://github.com/bigscience-workshop/Megatron-DeepSpeed - هذه هي قاعدة الأكواد الرئيسية لدينا
https://github.com/bigscience-workshop/bigscience - (هذا الريبو) لكل شيء آخر - المستندات والتجارب وما إلى ذلك.

حاليًا، الأجزاء الأكثر نشاطًا في هذا الريبو هي:

JZ - الكثير من المعلومات حول بيئة العمل لدينا والتي تساعد في التقييم والتخطيط وإنجاز الأمور
التجارب - يتم إجراء العديد من التجارب. الوثائق وجداول النتائج والبرامج النصية والسجلات كلها موجودة
معلومات مجموعات البيانات
التدريب - جميع المعلومات حول التدريبات الحالية (انظر أدناه لمعرفة أهمها)

لدينا ملفات README لجوانب محددة، مثل:

تكامل المحور

التدريبات

بينما نحتفظ بسجلات مفصلة للتجارب والنتائج لبعض التدريبات الرئيسية، إليك مستند يحتوي على ملخص لأهم النتائج: الدروس المستفادة

القطار 1 - 13B - ميجاترون gpt2 غير المعدل - خط الأساس

المواصفات الكاملة والمناقشات
البرنامج النصي للتدريب
نقاط التفتيش والسجلات:
- لوحة الشد
- سجلات
سجلات

يمكنك مشاهدة سجلات التدريب مباشرة عن طريق تشغيل هذا البرنامج النصي tail -f like على ملف السجل البعيد الذي تتم مزامنته مع المركز مرة واحدة كل ساعة:

 perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/; 
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}' 
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt

القطار 3

تشغيل خط الأساس للبنية والقياس: لا توجد حيل خيالية، فقط GPT2. فيما يلي روابط إلى لوحات التوتر المعنية:

مقاس	1ب3	760 م	350 م	125 م
C4 + إحماء منخفض	أ	ب	ج
أوسكار + إحماء منخفض	و
C4 + إحماء عالي	ه
أوسكار + إحماء عالي	د (خط الأساس الحالي)	ز	ح	أنا
كومة + الاحماء عالية	م	ي	ك	ل

القطار 8

104B - Megatron gpt2 غير المعدل - بحجم مخفي واسع للغاية لتعلم كيفية التعامل مع حالات عدم استقرار التدريب

المواصفات الكاملة والمناقشات
البرنامج النصي للتدريب
نقاط التفتيش والسجلات:
- لوحة الشد
- سجلات
سجلات

يمكنك مشاهدة سجلات التدريب مباشرة عن طريق تشغيل هذا البرنامج النصي tail -f like على ملف السجل البعيد الذي تتم مزامنته مع المركز مرة واحدة كل ساعة:

 perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/; 
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}' 
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9

القطار 11

هذا هو التدريب الرئيسي الحالي

tr11-176B-مل

المواصفات الكاملة والمناقشات
البرنامج النصي للتدريب
نقاط التفتيش والسجلات:
- لوحة الشد
- سجلات
سجلات برقول
سجلات

يمكنك مشاهدة سجلات التدريب مباشرة عن طريق تشغيل هذا البرنامج النصي tail -f like على ملف السجل البعيد الذي تتم مزامنته مع المركز مرة واحدة كل ساعة:

 perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s; 
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}' 
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2024-11-28
الحجم 2.45MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل