ورشة عمل بحثية حول النماذج اللغوية الكبيرة - صيف النماذج اللغوية 21
في الوقت الحالي لدينا نسختان من الكود:
حاليًا، الأجزاء الأكثر نشاطًا في هذا الريبو هي:
لدينا ملفات README لجوانب محددة، مثل:
بينما نحتفظ بسجلات مفصلة للتجارب والنتائج لبعض التدريبات الرئيسية، إليك مستند يحتوي على ملخص لأهم النتائج: الدروس المستفادة
يمكنك مشاهدة سجلات التدريب مباشرة عن طريق تشغيل هذا البرنامج النصي tail -f
like على ملف السجل البعيد الذي تتم مزامنته مع المركز مرة واحدة كل ساعة:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
تشغيل خط الأساس للبنية والقياس: لا توجد حيل خيالية، فقط GPT2. فيما يلي روابط إلى لوحات التوتر المعنية:
مقاس | 1ب3 | 760 م | 350 م | 125 م |
---|---|---|---|---|
C4 + إحماء منخفض | أ | ب | ج | |
أوسكار + إحماء منخفض | و | |||
C4 + إحماء عالي | ه | |||
أوسكار + إحماء عالي | د (خط الأساس الحالي) | ز | ح | أنا |
كومة + الاحماء عالية | م | ي | ك | ل |
104B - Megatron gpt2 غير المعدل - بحجم مخفي واسع للغاية لتعلم كيفية التعامل مع حالات عدم استقرار التدريب
يمكنك مشاهدة سجلات التدريب مباشرة عن طريق تشغيل هذا البرنامج النصي tail -f
like على ملف السجل البعيد الذي تتم مزامنته مع المركز مرة واحدة كل ساعة:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
هذا هو التدريب الرئيسي الحالي
tr11-176B-مل
يمكنك مشاهدة سجلات التدريب مباشرة عن طريق تشغيل هذا البرنامج النصي tail -f
like على ملف السجل البعيد الذي تتم مزامنته مع المركز مرة واحدة كل ساعة:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt