開始使用 DeepSpeed 最快的方法是透過 pip,這將安裝最新版本的 DeepSpeed,該版本不依賴特定的 PyTorch 或 CUDA 版本。 DeepSpeed 包含多個 C++/CUDA 擴展,我們通常稱之為「操作」。預設情況下,所有這些擴充功能/操作都將使用 torch 的 JIT C++ 擴充功能載入器即時建置(JIT),該載入器依賴 ninja 在執行時間建置和動態連結它們。
貢獻者 | 硬體 | 加速器名稱 | 貢獻者已驗證 | 上游驗證 |
---|---|---|---|---|
華為 | 華為升騰NPU | 西北大學 | 是的 | 不 |
英特爾 | 英特爾(R) Gaudi(R) 2 人工智慧加速器 | 高壓幫浦 | 是的 | 是的 |
英特爾 | 英特爾(R) 至強(R) 處理器 | 中央處理器 | 是的 | 是的 |
英特爾 | 英特爾(R) 資料中心 GPU Max 系列 | xpu | 是的 | 是的 |
我們定期將版本推送到 PyPI,並鼓勵用戶在大多數情況下從那裡安裝。
pip install deepspeed
安裝後,您可以驗證安裝並透過 DeepSpeed 環境報告查看您的電腦與哪些擴充功能/操作相容。
ds_report
如果您想要預先安裝任何 DeepSpeed 擴充功能/操作(而非 JIT 編譯)或透過 PyPI 安裝預編譯操作,請參閱我們的進階安裝說明。
DeepSpeed 部分支援 Windows 支援。在 Windows 上,您可以透過以下步驟建立輪子,目前僅支援推理模式。
python setup.py bdist_wheel
在dist
資料夾中建置wheel請查看 DeepSpeed-Training、DeepSpeed-Inference 和 DeepSpeed- Compression 頁面,以了解這三個支柱提供的全套功能。
所有 DeepSpeed 文件、教學和部落格都可以在我們的網站上找到:deepspeed.ai
描述 | |
---|---|
入門 | 使用 DeepSpeed 的第一步 |
DeepSpeed JSON 配置 | 配置 DeepSpeed |
API文件 | 產生的 DeepSpeed API 文檔 |
教學 | 教學 |
部落格 | 部落格 |
DeepSpeed 歡迎您的貢獻!請參閱我們的貢獻指南,以了解有關格式化、測試等的更多詳細資訊。
非常感謝我們所有出色的貢獻者!
該項目歡迎貢獻和建議。大多數貢獻都要求您同意貢獻者授權協議 (CLA),聲明您有權並且實際上授予我們使用您的貢獻的權利。有關詳細信息,請訪問 https://cla.opensource.microsoft.com。
當您提交拉取請求時,CLA 機器人將自動確定您是否需要提供 CLA 並適當地裝飾 PR(例如,狀態檢查、評論)。只需按照機器人提供的說明進行操作即可。您只需使用我們的 CLA 在所有儲存庫中執行一次此操作。
該專案採用了微軟開源行為準則。有關詳細信息,請參閱行為準則常見問題解答或聯繫 [email protected] 提出任何其他問題或意見。
Samyam Rajbhandari、Jeff Rasley、Olatunji Ruwase、何宇雄。 (2019) ZeRO:訓練萬億參數模型的記憶體最佳化。 arXiv:1910.02054 和高效能運算、網路、儲存和分析國際會議 (SC '20) 的會議記錄。
Jeff Rasley、Samyam Rajbhandari、Olatunji Ruwase 和 Yuxiong He。 (2020) DeepSpeed:系統最佳化支援使用超過 1000 億個參數訓練深度學習模型。第 26 屆 ACM SIGKDD 國際知識發現與資料探勘會議(KDD '20,教程)的會議記錄。
張敏嘉, 何宇雄. (2020) 透過漸進層丟棄加速基於 Transformer 的語言模型的訓練。 arXiv:2010.13369 和 NeurIPS 2020。
任傑、Samyam Rajbhandari、Reza Yazdani Aminabadi、Olatunji Ruwase、楊雙艷、張敏嘉、李東、何宇雄。 (2021) ZeRO-Offload:數十億規模的模型訓練民主化。 arXiv:2101.06840 和 USENIX ATC 2021。
唐漢林,甘少多,Ammar Ahmad Awan,Samyam Rajbhandari,李從龍,連相如,劉吉,張策,何宇雄。 (2021) 1 位 Adam:具有 Adam 收斂速度的高效通訊大規模訓練。 arXiv:2102.02888 和 ICML 2021。
Samyam Rajbhandari、Olatunji Ruwase、Jeff Rasley、Shaden Smith、何宇雄。 (2021) ZeRO-Infinity:打破超大規模深度學習的 GPU 記憶體牆。 arXiv:2104.07857 和 SC 2021。
李從龍、Ammar Ahmad Awan、Hanlin Tang、Samyam Rajbhandari、Yyuxiong He。 (2021) 1 位元 LAMB:利用 LAMB 的收斂速度進行通訊高效的大規模大量訓練。 arXiv:2104.06069 和 HiPC 2022。
李從龍, 張敏佳, 何宇雄. (2021) 穩定性-效率困境:研究訓練 GPT 模型的序列長度預熱。 arXiv:2108.06084 和 NeurIPS 2022。
盧玉成,李從龍,張敏佳,克里斯多福·德·薩,何宇雄。 (2022) 透過 0/1 Adam 最大限度地提高大規模訓練的通訊效率。 arXiv:2202.06009。
Samyam Rajbhandari、李從龍、姚哲偉、張敏佳、Reza Yazdani Aminabadi、Ammar Ahmad Awan、Jeff Rasley、何宇雄。 (2022) DeepSpeed-MoE:推進專家混合推理和訓練,為下一代 AI 規模提供動力 arXiv:2201.05596 和 ICML 2022。
沙登史密斯、莫斯託法派特瓦里、布蘭登諾里克、派崔克勒格雷斯利、山姆拉傑班達裡、賈里德卡斯帕、劉準、什裡邁·帕布胡莫耶、喬治·澤維斯、維傑·科蒂坎蒂、艾爾頓·張、Rewon Child、雷扎·亞茲達尼·阿米納巴迪、朱莉·伯瑙爾、夏松、穆罕默德·舒伊比、宇雄他,麥可·休斯頓,索拉布·蒂瓦里,布萊恩·卡坦扎羅。 (2022) 使用 DeepSpeed 和 Megatron 訓練 Megatron-Turing NLG 530B,大規模生成語言模型 arXiv:2201.11990。
吳曉霞,姚哲偉,張敏佳,李從龍,何宇雄。 (2022) 預訓練 Transformer 的極限壓縮變得簡單有效率。 arXiv:2206.01859 和 NeurIPS 2022。
姚哲偉、Reza Yazdani Aminabadi、張敏佳、吳曉霞、李從龍、何宇雄。 (2022) ZeroQuant:針對大型 Transformer 的高效且經濟實惠的訓練後量化。 arXiv:2206.01861 和 NeurIPS 2022 [投影片] [部落格]
Reza Yazdani Aminabadi、Samyam Rajbhandari、張敏嘉、Ammar Ahmad Awan、程力、杜力、Elton Cheng、Jeff Rasley、Shaden Smith、Olatunji Ruwase、何宇雄。 (2022) DeepSpeed Inference:以前所未有的規模實現 Transformer 模型的高效推理。 arXiv:2207.00032 和 SC 2022。
姚哲偉、吳曉霞、李從龍、Connor Holmes、張敏嘉、李成、何宇雄。 (2022) Random-LTD:隨機分層代幣丟棄為大規模 Transformer 帶來高效訓練。 arXiv:2211.11586。
李從龍,姚哲偉,吳曉霞,張敏佳,何宇雄。 (2022) DeepSpeed 資料效率:透過高效能資料採樣和路由來提高深度學習模型品質和訓練效率。 arXiv:2212.03597 NeurIPS2023 的 ENLSP2023 研討會
吳曉霞,李程,Reza Yazdani Aminabadi,姚哲偉,何宇雄。 (2023) 了解 Transformer 模型的 INT4 量化:延遲加速、可組合性和故障案例。 arXiv:2301.12017 和 ICML2023。
賽義德·札瓦德、李成、姚哲偉、鄭艾爾頓、何宇雄、嚴鋒。 (2023) DySR:透過演算法和系統協同設計實現自適應超解析度。 ICLR:2023。
申盛、姚哲偉、李春元、Trevor Darrell、Kurt Keutzer、何宇雄。 (2023) 以稀疏的專家組合擴展視覺語言模型。 arXiv:2303.07226 和 EMNLP2023 上的發現。
昆汀安東尼、阿馬爾艾哈邁德阿萬、傑夫拉斯利、何宇雄、阿米爾沙菲、穆斯塔法阿卜杜勒賈巴爾、哈里蘇布拉莫尼、達巴萊斯瓦爾潘達。 (2023) MCR-DL:深度學習的混合匹配通訊運行時 arXiv:2303.08374 並將出現在 IPDPS 2023 上。
Siddharth Singh、Olatunji Ruwase、Ammar Ahmad Awan、Samyam Rajbhandari、Yyuxiong He、Abhinav Bhatele。 (2023) 用於優化專家混合訓練的混合張量-專家-資料並行方法 arXiv:2303.06318 並將出現在 ICS 2023 上。
王冠華、秦鶴陽、Sam Ade Jacobs、吳曉霞、Connor Holmes、Zhewei Yao、Samyam Rajbhandari、Olatunji Ruwase、Feng Yan、Lei Yang、Yyuxiong He。 (2023) ZeRO++:巨型模型訓練的極其高效的集體通信 arXiv:2306.10209 和 NeurIPS2023 的 Sys 研討會的 ML [博客]
姚哲偉、吳曉霞、李程、Stephen Youn、何宇雄。 (2023) ZeroQuant-V2:從綜合研究到低階補償探索法學碩士的訓練後量化 arXiv:2303.08302 和 NeurIPS2023 的 ENLSP2023 研討會 [幻燈片]
帕雷薩·阿梅內·戈爾納裡 (Pareesa Ameneh Golnari),姚哲偉,何宇雄。 (2023) 選擇性引導:引導擴散的所有去雜訊步驟都很重要嗎? arXiv:2305.09847
姚哲偉、Reza Yazdani Aminabadi、Olatunji Ruwase、Samyam Rajbhandari、吳曉霞、Ammar Ahmad Awan、Jeff Rasley、張敏佳、李從龍、Connor Holmes、周中柱、Michael Wyatt、Molly Smith、Lev Kurilenko、Heyang Qing、Masahiro Taning、車帥何宇雄。 (2023) DeepSpeed-Chat:簡單、快速且經濟實惠的所有規模的類似 ChatGPT 模型的 RLHF 訓練 arXiv:2308.01320。
吳曉霞,姚哲偉,何宇雄。 (2023) ZeroQuant-FP:使用浮點格式進行 LLM 訓練後 W4A8 量化的飛躍 arXiv:2307.09782 和 NeurIPS2023 的 ENLSP2023 研討會 [幻燈片]
姚哲偉、吳曉霞、李從龍、張敏佳、秦河陽、Olatunji Ruwase、Ammar Ahmad Awan、Samyam Rajbhandari、何宇雄。 (2023) DeepSpeed-VisualChat:透過多模態因果注意力進行多輪多影像交錯聊天 arXiv:2309.14327
帥文 Leon Song、Bonnie Kruft、Minjia 張、李從龍、陳世陽、張成明、Masahiro Tanaka、吳曉霞、Jeff Rasley、Ammar Ahmad Awan、Connor Holmes、Martin Cai、Adam Ghanem、Zhongzhu Zhou、Yyuxiong He 等。 (2023) DeepSpeed4Science Initiative:透過複雜的人工智慧系統技術實現大規模科學發現 arXiv:2310.04610 [部落格]
姚哲偉、Reza Yazdani Aminabadi、Stephen Youn、吳曉霞、Elton Cheng、何宇雄。 (2023) ZeroQuant-HERO:W8A8 Transformers 的硬體增強型穩健最佳化後訓練量化架構 arXiv:2310.17723
吳曉霞、夏浩軍、Stephen Youn、Zhen Cheng、Shiyang Chen、Arash Bakhtiari、Michael Wyatt、Reza Yazdani Aminabadi、Yyuxiong He、Olatunji Ruwase、Leon Song、Zhewei Yao (2023) ZeroQuant(4+2)碩士:重新定義法學碩士一量化種新的以FP6 為中心的多樣化產生任務策略arXiv:2312.08583
夏浩軍、鄭振、吳曉霞、陳世陽、姚哲偉、Stephen Youn、Arash Bakhtiari、Michael Wyatt、Donglin Zhuang、Zhongzhu Zhou、Olatunji Ruwase、Yyuxiong He、Shuaiwen Leon Song。 (2024) FP6-LLM:透過以 FP6 為中心的演算法系統協同設計高效服務大型語言模型 arXiv:2401.14112
Sam Ade Jacobs、Masahiro Tanaka、張成明、張敏佳、Reza Yazdani Aminadabi、Shuaiwen Leon Song、Samyam Rajbhandari、何宇雄。 (2024) 用於訓練極長序列變壓器模型的系統最佳化
Xinyu Lian、Sam Ade Jacobs、Lev Kurilenko、Masahiro Tanaka、Stas Bekman、Olatunji Ruwase、張敏佳。 (2024) 通用檢查點:大規模分散式訓練的高效靈活的檢查點 arXiv:2406.18820