Der schnellste Weg, mit DeepSpeed zu beginnen, ist über pip. Dadurch wird die neueste Version von DeepSpeed installiert, die nicht an bestimmte PyTorch- oder CUDA-Versionen gebunden ist. DeepSpeed umfasst mehrere C++/CUDA-Erweiterungen, die wir allgemein als unsere „Ops“ bezeichnen. Standardmäßig werden alle diese Erweiterungen/Operationen Just-in-Time (JIT) mit dem JIT C++-Erweiterungslader von Torch erstellt, der auf Ninja basiert, um sie zur Laufzeit zu erstellen und dynamisch zu verknüpfen.
Mitwirkender | Hardware | Beschleunigername | Mitwirkender bestätigt | Upstream validiert |
---|---|---|---|---|
Huawei | Huawei Ascend NPU | npu | Ja | NEIN |
Intel | Intel(R) Gaudi(R) 2 KI-Beschleuniger | hpu | Ja | Ja |
Intel | Intel(R) Xeon(R) Prozessoren | CPU | Ja | Ja |
Intel | Intel(R) Data Center GPU Max-Serie | xpu | Ja | Ja |
Wir veröffentlichen regelmäßig Veröffentlichungen an PyPI und ermutigen Benutzer, in den meisten Fällen von dort aus zu installieren.
pip install deepspeed
Nach der Installation können Sie Ihre Installation validieren und über den DeepSpeed-Umgebungsbericht sehen, mit welchen Erweiterungen/Operationen Ihr Computer kompatibel ist.
ds_report
Wenn Sie eine der DeepSpeed-Erweiterungen/Ops (anstelle der JIT-Kompilierung) vorinstallieren oder vorkompilierte Ops über PyPI installieren möchten, lesen Sie bitte unsere erweiterten Installationsanweisungen.
Die Windows-Unterstützung wird teilweise mit DeepSpeed unterstützt. Unter Windows können Sie das Rad mit den folgenden Schritten erstellen. Derzeit wird nur der Inferenzmodus unterstützt.
python setup.py bdist_wheel
aus, um das Rad im dist
-Ordner zu erstellenBitte besuchen Sie die Seiten DeepSpeed-Training, DeepSpeed-Inference und DeepSpeed-Compression für den vollständigen Funktionsumfang, der für jede dieser drei Säulen angeboten wird.
Die gesamte DeepSpeed-Dokumentation, Tutorials und Blogs finden Sie auf unserer Website: deepspeed.ai
Beschreibung | |
---|---|
Erste Schritte | Erste Schritte mit DeepSpeed |
DeepSpeed JSON-Konfiguration | Konfigurieren von DeepSpeed |
API-Dokumentation | Generierte DeepSpeed-API-Dokumentation |
Tutorials | Tutorials |
Blogs | Blogs |
DeepSpeed freut sich über Ihre Beiträge! Weitere Informationen zu Formatierung, Tests usw. finden Sie in unserem Beitragsleitfaden.
Vielen Dank an alle unsere großartigen Mitwirkenden!
Dieses Projekt freut sich über Beiträge und Vorschläge. Für die meisten Beiträge müssen Sie einem Contributor License Agreement (CLA) zustimmen, in dem Sie erklären, dass Sie das Recht haben, uns die Rechte zur Nutzung Ihres Beitrags zu gewähren, und dies auch tatsächlich tun. Weitere Informationen finden Sie unter https://cla.opensource.microsoft.com.
Wenn Sie eine Pull-Anfrage einreichen, ermittelt ein CLA-Bot automatisch, ob Sie eine CLA bereitstellen müssen, und schmückt die PR entsprechend (z. B. Statusprüfung, Kommentar). Folgen Sie einfach den Anweisungen des Bots. Sie müssen dies nur einmal für alle Repos tun, die unsere CLA verwenden.
Dieses Projekt hat den Microsoft Open Source Verhaltenskodex übernommen. Weitere Informationen finden Sie in den FAQ zum Verhaltenskodex oder wenden Sie sich bei weiteren Fragen oder Kommentaren an [email protected].
Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. (2019) ZeRO: Speicheroptimierungen für das Training von Billionen-Parametermodellen. arXiv:1910.02054 und In Proceedings der International Conference for High Performance Computing, Networking, Storage and Analysis (SC '20).
Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase und Yuxiong He. (2020) DeepSpeed: Systemoptimierungen ermöglichen das Training von Deep-Learning-Modellen mit über 100 Milliarden Parametern. In Proceedings der 26. ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '20, Tutorial).
Minjia Zhang, Yuxiong He. (2020) Beschleunigung des Trainings transformatorbasierter Sprachmodelle mit progressivem Layer Dropping. arXiv:2010.13369 und NeurIPS 2020.
Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He. (2021) ZeRO-Offload: Demokratisierung der Ausbildung von Modellen im Milliardenmaßstab. arXiv:2101.06840 und USENIX ATC 2021. [Papier] [Folien] [Blog]
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He. (2021) 1-Bit Adam: Kommunikationseffizientes Training im großen Maßstab mit Adams Konvergenzgeschwindigkeit. arXiv:2102.02888 und ICML 2021.
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He. (2021) ZeRO-Infinity: Durchbrechen der GPU-Speichermauer für Deep Learning im extremen Maßstab. arXiv:2104.07857 und SC 2021. [Papier] [Folien] [Blog]
Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He. (2021) 1-Bit-LAMB: Kommunikationseffizientes Großserientraining mit der Konvergenzgeschwindigkeit von LAMB. arXiv:2104.06069 und HiPC 2022.
Conglong Li, Minjia Zhang, Yuxiong He. (2021) Das Stabilitäts-Effizienz-Dilemma: Untersuchung des Aufwärmens der Sequenzlänge für das Training von GPT-Modellen. arXiv:2108.06084 und NeurIPS 2022.
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He. (2022) Maximierung der Kommunikationseffizienz für groß angelegte Schulungen durch 0/1 Adam. arXiv:2202.06009.
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He. (2022) DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale arXiv:2201.05596 und ICML 2022. [pdf] [Folien] [Blog]
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong Er, Michael Houston, Saurabh Tiwary, Bryan Catanzaro. (2022) Verwendung von DeepSpeed und Megatron zum Trainieren von Megatron-Turing NLG 530B, einem groß angelegten generativen Sprachmodell arXiv:2201.11990.
Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He. (2022) Extreme Komprimierung für vorab trainierte Transformatoren einfach und effizient gemacht. arXiv:2206.01859 und NeurIPS 2022.
Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He. (2022) ZeroQuant: Effiziente und kostengünstige Quantisierung nach dem Training für große Transformatoren. arXiv:2206.01861 und NeurIPS 2022 [Folien] [Blog]
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He. (2022) DeepSpeed-Inferenz: Effiziente Inferenz von Transformatormodellen in beispiellosem Maßstab ermöglichen. arXiv:2207.00032 und SC 2022. [Papier] [Folien] [Blog]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He. (2022) Random-LTD: Zufälliges und schichtweises Abwerfen von Token ermöglicht effizientes Training für große Transformatoren. arXiv:2211.11586.
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He. (2022) DeepSpeed-Dateneffizienz: Verbesserung der Qualität und Trainingseffizienz von Deep-Learning-Modellen durch effiziente Datenerfassung und -weiterleitung. arXiv:2212.03597 ENLSP2023 Workshop bei NeurIPS2023
Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He. (2023) Grundlegendes zur INT4-Quantisierung für Transformatormodelle: Latenzbeschleunigung, Zusammensetzbarkeit und Fehlerfälle. arXiv:2301.12017 und ICML2023.
Syed Zawad, Cheng Li, Zhewei Yao, Elton Zheng, Yuxiong He, Feng Yan. (2023) DySR: Adaptive Superauflösung durch Algorithmus und System-Co-Design. ICLR:2023.
Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He. (2023) Skalierung von Vision-Language-Modellen mit einer spärlichen Mischung von Experten. arXiv:2303.07226 und Finding bei EMNLP2023.
Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda. (2023) MCR-DL: Mix-and-Match Communication Runtime for Deep Learning arXiv:2303.08374 und erscheint auf der IPDPS 2023.
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele. (2023) A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize Mixture-of-Experts Training arXiv:2303.06318 und erscheint auf der ICS 2023.
Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Xiaoxia Wu, Connor Holmes, Zhewei Yao, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He. (2023) ZeRO++: Extrem effiziente kollektive Kommunikation für das Giant Model Training arXiv:2306.10209 und ML für Sys Workshop bei NeurIPS2023 [Blog]
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He. (2023) ZeroQuant-V2: Erforschung der Post-Training-Quantisierung in LLMs von der umfassenden Studie bis zur Low-Rank-Kompensation arXiv:2303.08302 und ENLSP2023 Workshop bei NeurIPS2023 [Folien]
Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He. (2023) Selektive Führung: Sind alle Entrauschungsschritte der geführten Diffusion wichtig? arXiv:2305.09847
Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He. (2023) DeepSpeed-Chat: Einfaches, schnelles und erschwingliches RLHF-Training von ChatGPT-ähnlichen Modellen in allen Maßstäben arXiv:2308.01320.
Xiaoxia Wu, Zhewei Yao, Yuxiong He. (2023) ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats arXiv:2307.09782 and ENLSP2023 Workshop at NeurIPS2023 [Folien]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. (2023) DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat über multimodale kausale Aufmerksamkeit arXiv:2309.14327
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He, et al. (2023) DeepSpeed4Science-Initiative: Ermöglichung groß angelegter wissenschaftlicher Entdeckungen durch hochentwickelte KI-Systemtechnologien arXiv:2310.04610 [Blog]
Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He. (2023) ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training Quantization Framework for W8A8 Transformers arXiv:2310.17723
Xiaoxia Wu, Haojun eine neue FP6-zentrierte Strategie für vielfältige generative Aufgaben arXiv:2312.08583
Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song. (2024) FP6-LLM: Effiziente Bereitstellung großer Sprachmodelle durch FP6-zentriertes Algorithmussystem-Co-Design arXiv:2401.14112
Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Reza Yazdani Aminadabi, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He. (2024) Systemoptimierungen zur Ermöglichung des Trainings extrem langer Sequenztransformatormodelle
Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang. (2024) Universal Checkpointing: Effizientes und flexibles Checkpointing für groß angelegte verteilte Schulungen arXiv:2406.18820