أسرع طريقة لبدء استخدام DeepSpeed هي عبر النقطة، سيؤدي هذا إلى تثبيت أحدث إصدار من DeepSpeed الذي لا يرتبط بإصدارات معينة من PyTorch أو CUDA. يتضمن DeepSpeed العديد من امتدادات C++/CUDA التي نشير إليها عادةً باسم "عملياتنا". افتراضيًا، سيتم إنشاء جميع هذه الامتدادات/العمليات في الوقت المناسب (JIT) باستخدام أداة تحميل الامتدادات JIT C++ الخاصة بالشعلة والتي تعتمد على النينجا في بنائها وربطها ديناميكيًا في وقت التشغيل.
مساهم | الأجهزة | اسم المسرع | تم التحقق من صحة المساهم | التحقق من صحة المنبع |
---|---|---|---|---|
هواوي | هواوي التصاعدي NPU | npu | نعم | لا |
إنتل | مسرع Intel(R) Gaudi(R) 2 للذكاء الاصطناعي | hpu | نعم | نعم |
إنتل | معالجات إنتل (R) زيون (R). | وحدة المعالجة المركزية | نعم | نعم |
إنتل | سلسلة Intel(R) Data Center GPU Max | xpu | نعم | نعم |
نحن ندفع الإصدارات بانتظام إلى PyPI ونشجع المستخدمين على التثبيت من هناك في معظم الحالات.
pip install deepspeed
بعد التثبيت، يمكنك التحقق من صحة التثبيت ومعرفة الملحقات/العمليات التي يتوافق معها جهازك عبر تقرير بيئة DeepSpeed.
ds_report
إذا كنت ترغب في التثبيت المسبق لأي من ملحقات/عمليات DeepSpeed (بدلاً من تجميع JIT) أو تثبيت العمليات المجمعة مسبقًا عبر PyPI، فيرجى الاطلاع على تعليمات التثبيت المتقدمة الخاصة بنا.
يتم دعم دعم Windows جزئيًا باستخدام DeepSpeed. في نظام التشغيل Windows، يمكنك إنشاء العجلة باتباع الخطوات التالية، حاليًا يتم دعم وضع الاستدلال فقط.
python setup.py bdist_wheel
لبناء العجلة في مجلد dist
يرجى مراجعة صفحات DeepSpeed-Training وDeepSpeed-Inference وDeepSpeed-Compression للحصول على مجموعة كاملة من الميزات المقدمة على طول كل من هذه الركائز الثلاث.
يمكن العثور على جميع وثائق DeepSpeed والبرامج التعليمية والمدونات على موقعنا الإلكتروني: DeepSpeed.ai
وصف | |
---|---|
ابدء | الخطوات الأولى مع DeepSpeed |
تكوين DeepSpeed JSON | تكوين DeepSpeed |
وثائق واجهة برمجة التطبيقات | تم إنشاء وثائق DeepSpeed API |
دروس | دروس |
مدونات | مدونات |
DeepSpeed ترحب بمساهماتك! يرجى الاطلاع على دليل المساهمة الخاص بنا للحصول على مزيد من التفاصيل حول التنسيق والاختبار وما إلى ذلك.
شكرا جزيلا لجميع المساهمين المذهلين لدينا!
يرحب هذا المشروع بالمساهمات والاقتراحات. تتطلب معظم المساهمات منك الموافقة على اتفاقية ترخيص المساهم (CLA) التي تعلن أن لديك الحق في منحنا حقوق استخدام مساهمتك، بل وتفعل ذلك بالفعل. للحصول على التفاصيل، تفضل بزيارة https://cla.opensource.microsoft.com.
عند إرسال طلب سحب، سيحدد روبوت CLA تلقائيًا ما إذا كنت بحاجة إلى تقديم CLA وتزيين العلاقات العامة بشكل مناسب (على سبيل المثال، التحقق من الحالة، التعليق). ما عليك سوى اتباع التعليمات التي يقدمها لك الروبوت. سوف تحتاج إلى القيام بذلك مرة واحدة فقط عبر جميع اتفاقيات إعادة الشراء باستخدام CLA الخاصة بنا.
اعتمد هذا المشروع قواعد السلوك الخاصة بشركة Microsoft مفتوحة المصدر. لمزيد من المعلومات، راجع الأسئلة الشائعة حول قواعد السلوك أو اتصل بـ [email protected] لطرح أي أسئلة أو تعليقات إضافية.
ساميام راجبهانداري، جيف راسلي، أولاتونجي رواسي، يوكسيونج هي. (2019) Zero: تحسينات الذاكرة نحو تدريب نماذج تريليون معلمة. أرخايف:1910.02054 وفي وقائع المؤتمر الدولي للحوسبة عالية الأداء والشبكات والتخزين والتحليل (SC '20).
جيف راسلي، وساميام راجبهانداري، وأولاتونجي رواسي، ويوكسيونج هي. (2020) DeepSpeed: تتيح تحسينات النظام تدريب نماذج التعلم العميق بأكثر من 100 مليار معلمة. في وقائع المؤتمر الدولي السادس والعشرين لـ ACM SIGKDD حول اكتشاف المعرفة واستخراج البيانات (KDD '20، البرنامج التعليمي).
منجيا تشانغ، يوكسيونغ هي. (2020) تسريع تدريب نماذج اللغة القائمة على المحولات مع إسقاط الطبقة التدريجي. أرخايف:2010.13369 وNeurIPS 2020.
جي رين، ساميام راجبهانداري، رضا يزداني أمينابادي، أولاتونجي رواسي، شوانغيان يانغ، مينجيا تشانغ، دونغ لي، يوكسيونغ هي. (2021) Zero-Offload: إضفاء الطابع الديمقراطي على التدريب النموذجي على نطاق ملياري. arXiv:2101.06840 و USENIX ATC 2021. [ورقة] [شرائح] [مدونة]
هانلين تانغ، شاودو غان، عمار أحمد أوان، ساميام راجبهانداري، كونغلونغ لي، شيانغرو ليان، جي ليو، سي تشانغ، يوكسيونغ هي. (2021) آدم 1 بت: تدريب فعال على نطاق واسع على الاتصالات مع سرعة تقارب آدم. أرخايف:2102.02888 وICML 2021.
ساميام راجبهانداري، أولاتونجي رواسي، جيف راسلي، شادن سميث، يوكسيونج هي. (2021) Zero-Infinity: كسر جدار ذاكرة وحدة معالجة الرسومات للتعلم العميق على نطاق واسع. arXiv:2104.07857 وSC 2021. [ورقة] [شرائح] [مدونة]
كونغلونغ لي، عمار أحمد أوان، هانلين تانغ، ساميام راجبهانداري، يوكسيونغ هي. (2021) 1-بت LAMB: تدريب فعال على نطاق واسع على نطاق واسع مع سرعة تقارب LAMB. أرخايف:2104.06069 وHiPC 2022.
كونغلونغ لي، مينجيا تشانغ، يوكسيونغ هي. (2021) معضلة كفاءة الاستقرار: دراسة عملية إحماء طول التسلسل لتدريب نماذج GPT. أرخايف:2108.06084 وNeurIPS 2022.
يوتشنغ لو، كونغلونغ لي، مينجيا تشانغ، كريستوفر دي سا، يوكسيونغ هي. (2022) تعظيم كفاءة الاتصال للتدريب واسع النطاق عبر 0/1 آدم. أرخايف:2202.06009.
ساميام راجبهانداري، كونغلونغ لي، زيوي ياو، منجيا تشانغ، رضا يزداني أمينابادي، عمار أحمد أوان، جيف راسلي، يوكسيونغ هي. (2022) DeepSpeed-MoE: تطوير الاستدلال والتدريب من خلال مزيج من الخبراء لتشغيل مقياس الذكاء الاصطناعي للجيل القادم arXiv:2201.05596 وICML 2022. [pdf] [الشرائح] [مدونة]
شادن سميث، مصطفى باتواري، براندون نوريك، باتريك ليجريسلي، ساميام راجبهانداري، جاريد كاسبر، زون ليو، شريماي برابهومو، جورج زيرفياس، فيجاي كورثيكانتي، إلتون تشانغ، ريون تشايلد، رضا يزداني أمينابادي، جولي بيرناور، شيا سونغ، محمد شويبي، يوشيونغ. هو، مايكل هيوستن، سوراب تيواري، بريان كاتانزارو. (2022) استخدام DeepSpeed وMegatron لتدريب Megatron-Turing NLG 530B، نموذج لغة توليدي واسع النطاق أرخايف:2201.11990.
شياوكسيا وو، زيوي ياو، مينجيا تشانغ، كونغلونغ لي، يوكسيونغ هي. (2022) أصبح الضغط الشديد للمحولات المدربة مسبقًا بسيطًا وفعالاً. أرخايف:2206.01859 وNeurIPS 2022.
زيوي ياو، رضا يزداني أمينابادي، مينجيا تشانغ، شياوكسيا وو، كونغلونغ لي، يوكسيونغ هي. (2022) ZeroQuant: تكميم فعال وبأسعار معقولة بعد التدريب للمحولات واسعة النطاق. arXiv:2206.01861 وNeurIPS 2022 [الشرائح] [مدونة]
رضا يزداني أمين آبادي، ساميام راغبهانداري، منجيا تشانغ، عمار أحمد أوان، تشينغ لي، دو لي، إلتون تشنغ، جيف راسلي، شادن سميث، أولاتونجي رواسي، يوكسيونغ هي. (2022) استنتاج DeepSpeed: تمكين الاستدلال الفعال لنماذج المحولات على نطاق غير مسبوق. أرخايف:2207.00032 و SC 2022. [ورقة] [شرائح] [مدونة]
زيوي ياو، شياوكسيا وو، كونغلونغ لي، كونور هولمز، مينجيا تشانغ، تشنغ لي، يوكسيونغ هي. (2022) Random-LTD: إسقاط الرموز العشوائية والطبقية يوفر تدريبًا فعالاً للمحولات واسعة النطاق. أرخايف:2211.11586.
كونغلونغ لي، زيوي ياو، شياوكسيا وو، مينجيا تشانغ، يوكسيونغ هي. (2022) كفاءة بيانات DeepSpeed: تحسين جودة نموذج التعلم العميق وكفاءة التدريب من خلال أخذ عينات البيانات وتوجيهها بكفاءة. arXiv:2212.03597 ورشة عمل ENLSP2023 في NeurIPS2023
شياوكسيا وو، تشنغ لي، رضا يزداني أمين آبادي، زيوي ياو، يوكسيونغ هي. (2023) فهم تكميم INT4 لنماذج المحولات: تسريع زمن الوصول، وقابلية التركيب، وحالات الفشل. أرخايف:2301.12017 وICML2023.
سيد زواد، تشينغ لي، زيوي ياو، إلتون تشنغ، يوكسيونغ هي، فنغ يان. (2023) DySR: الدقة الفائقة التكيفية عبر الخوارزمية والتصميم المشترك للنظام. ICLR:2023.
شينغ شين، زيوي ياو، تشونيوان لي، تريفور داريل، كيرت كيوتزر، يوكسيونغ هي. (2023) توسيع نطاق نماذج الرؤية واللغة بمزيج متناثر من الخبراء. أرخايف:2303.07226 والعثور على EMNLP2023.
كوينتين أنتوني، عمار أحمد أوان، جيف راسلي، يوكسيونج هي، عامر شافي، مصطفى عبد الجبار، هاري سوبراموني، داباليسوار باندا. (2023) MCR-DL: وقت تشغيل الاتصال المختلط والمطابقة للتعلم العميق arXiv:2303.08374 وسيظهر في IPDPS 2023.
سيدهارث سينغ، أولاتونجي رواسي، عمار أحمد أوان، ساميام راجبهانداري، يوكسيونغ هي، أبهيناف باتيلي. (2023) نهج متوازي بيانات الخبراء الهجين لتحسين تدريب مزيج الخبراء arXiv:2303.06318 وسيظهر في ICS 2023.
جوانهوا وانج، هيانج تشين، سام أدي جاكوبس، شياوكسيا وو، كونور هولمز، زيوي ياو، ساميام راجبهانداري، أولاتونجي رواسي، فنغ يان، لي يانغ، يوكسيونغ هي. (2023) Zero++: اتصال جماعي فعال للغاية للتدريب على النماذج العملاقة arXiv:2306.10209 وML for Sys Workshop في NeurIPS2023 [مدونة]
زيوي ياو، شياوكسيا وو، تشينغ لي، ستيفن يون، يوكسيونغ هي. (2023) ZeroQuant-V2: استكشاف التكميم بعد التدريب في ماجستير إدارة الأعمال من الدراسة الشاملة إلى التعويض منخفض الرتبة arXiv:2303.08302 وورشة عمل ENLSP2023 في NeurIPS2023 [الشرائح]
باريسا أمينة جولناري، زيوي ياو، يوكسيونج هي. (2023) التوجيه الانتقائي: هل جميع خطوات تقليل الضوضاء للنشر الموجه مهمة؟ أرخايف:2305.09847
زيوي ياو، رضا يزداني أمينابادي، أولاتونجي رواسي، ساميام راجبهانداري، زياوكسيا وو، عمار أحمد أوان، جيف راسلي، مينجيا تشانغ، كونغلونغ لي، كونور هولمز، تشونغزو تشو، مايكل وايت، مولي سميث، ليف كوريلينكو، هيانغ تشين، ماساهيرو تاناكا، شواي تشي، شوايوين ليون سونغ، يوكسيونغ هي. (2023) DeepSpeed-Chat: تدريب RLHF سهل وسريع وبأسعار معقولة للنماذج الشبيهة بـ ChatGPT على جميع المقاييس.arXiv:2308.01320.
شياوكسيا وو، زيوي ياو، يوكسيونغ هي. (2023) ZeroQuant-FP: قفزة إلى الأمام في تقدير ما بعد التدريب في LLMs W4A8 باستخدام تنسيقات النقطة العائمة arXiv:2307.09782 وورشة عمل ENLSP2023 في NeurIPS2023 [الشرائح]
زيوي ياو، شياوكسيا وو، كونغلونغ لي، مينجيا تشانغ، هيانغ تشين، أولاتونجي رواسي، عمار أحمد أوان، ساميام راغبهانداري، يوكسيونغ هي. (2023) DeepSpeed-VisualChat: دردشة متعددة الجولات ومتعددة الصور عبر الاهتمام السببي متعدد الوسائط أرخايف:2309.14327
شوايوين ليون سونغ، بوني كروفت، مينجيا تشانغ، كونغلونغ لي، شيانغ تشين، تشنغ مينغ تشانغ، ماساهيرو تاناكا، شياوكسيا وو، جيف راسلي، عمار أحمد أوان، كونور هولمز، مارتن كاي، آدم غانم، تشونغتشو تشو، يوكسيونغ هي، وآخرون. (2023) مبادرة DeepSpeed4Science: تمكين الاكتشافات العلمية واسعة النطاق من خلال تقنيات نظام الذكاء الاصطناعي المتطورة arXiv:2310.04610 [مدونة]
زيوي ياو، رضا يزداني أمينابادي، ستيفن يون، شياوكسيا وو، إلتون تشنغ، يوكسيونغ هي. (2023) ZeroQuant-HERO: إطار عمل تكميم قوي ومُحسّن للأجهزة لمحولات W8A8 arXiv:2310.17723
Xiaoxia Wu، Haojun Xia، Stephen Youn، Zhen Zheng، Shiyang Chen، Arash Bakhtiari، Michael Wyatt، Reza Yazdani Aminabadi، Yuxiong He، Olatunji Ruwase، Leon Song، Zhewei Yao (2023) ZeroQuant (4 + 2): إعادة تعريف LLMs Quantization مع استراتيجية جديدة تتمحور حول FP6 للمهام التوليدية المتنوعة أرخايف:2312.08583
هاوجون شيا، تشن تشنغ، شياوكسيا وو، شيانغ تشن، زيوي ياو، ستيفن يون، أراش بختياري، مايكل وايت، دونغلين تشوانغ، تشونغزو تشو، أولاتونجي رواسي، يوكسيونغ هي، شوايوين ليون سونغ. (2024) FP6-LLM: تقديم نماذج لغوية كبيرة بكفاءة من خلال التصميم المشترك لنظام الخوارزمية المتمحورة حول FP6 أرخايف:2401.14112
سام آدي جاكوبس، ماساهيرو تاناكا، تشنغ مينغ تشانغ، مينجيا تشانغ، رضا يزداني أمينادابي، شوايوين ليون سونغ، ساميام راغبهانداري، يوكسيونغ هي. (2024) تحسينات النظام لتمكين تدريب نماذج محولات التسلسل الطويل للغاية
شينيو ليان، سام أدي جاكوبس، ليف كوريلينكو، ماساهيرو تاناكا، ستاس بيكمان، أولاتونجي رواسي، مينجيا تشانغ. (2024) نقاط التفتيش العالمية: نقاط تفتيش فعالة ومرنة للتدريب الموزع على نطاق واسع arXiv:2406.18820