开始使用 DeepSpeed 的最快方法是通过 pip,这将安装最新版本的 DeepSpeed,该版本不依赖于特定的 PyTorch 或 CUDA 版本。 DeepSpeed 包含多个 C++/CUDA 扩展,我们通常将其称为“操作”。默认情况下,所有这些扩展/操作都将使用 torch 的 JIT C++ 扩展加载器即时构建(JIT),该加载器依赖 ninja 在运行时构建和动态链接它们。
贡献者 | 硬件 | 加速器名称 | 贡献者已验证 | 上游验证 |
---|---|---|---|---|
华为 | 华为升腾NPU | 西北大学 | 是的 | 不 |
英特尔 | 英特尔(R) Gaudi(R) 2 人工智能加速器 | 高压泵 | 是的 | 是的 |
英特尔 | 英特尔(R) 至强(R) 处理器 | 中央处理器 | 是的 | 是的 |
英特尔 | 英特尔(R) 数据中心 GPU Max 系列 | xpu | 是的 | 是的 |
我们定期将版本推送到 PyPI,并鼓励用户在大多数情况下从那里安装。
pip install deepspeed
安装后,您可以验证安装并通过 DeepSpeed 环境报告查看您的计算机与哪些扩展/操作兼容。
ds_report
如果您想预安装任何 DeepSpeed 扩展/操作(而不是 JIT 编译)或通过 PyPI 安装预编译操作,请参阅我们的高级安装说明。
DeepSpeed 部分支持 Windows 支持。在 Windows 上,您可以通过以下步骤构建轮子,目前仅支持推理模式。
python setup.py bdist_wheel
在dist
文件夹中构建wheel请查看 DeepSpeed-Training、DeepSpeed-Inference 和 DeepSpeed- Compression 页面,了解这三个支柱提供的全套功能。
所有 DeepSpeed 文档、教程和博客都可以在我们的网站上找到:deepspeed.ai
描述 | |
---|---|
入门 | 使用 DeepSpeed 的第一步 |
DeepSpeed JSON 配置 | 配置 DeepSpeed |
API文档 | 生成的 DeepSpeed API 文档 |
教程 | 教程 |
博客 | 博客 |
DeepSpeed 欢迎您的贡献!请参阅我们的贡献指南,了解有关格式化、测试等的更多详细信息。
非常感谢我们所有出色的贡献者!
该项目欢迎贡献和建议。大多数贡献都要求您同意贡献者许可协议 (CLA),声明您有权并且实际上授予我们使用您的贡献的权利。有关详细信息,请访问 https://cla.opensource.microsoft.com。
当您提交拉取请求时,CLA 机器人将自动确定您是否需要提供 CLA 并适当地装饰 PR(例如,状态检查、评论)。只需按照机器人提供的说明进行操作即可。您只需使用我们的 CLA 在所有存储库中执行一次此操作。
该项目采用了微软开源行为准则。有关详细信息,请参阅行为准则常见问题解答或联系 [email protected] 提出任何其他问题或意见。
Samyam Rajbhandari、Jeff Rasley、Olatunji Ruwase、何宇雄。 (2019) ZeRO:训练万亿参数模型的内存优化。 arXiv:1910.02054 和高性能计算、网络、存储和分析国际会议 (SC '20) 的会议记录。
Jeff Rasley、Samyam Rajbhandari、Olatunji Ruwase 和 Yuxiong He。 (2020) DeepSpeed:系统优化支持使用超过 1000 亿个参数训练深度学习模型。第 26 届 ACM SIGKDD 国际知识发现和数据挖掘会议(KDD '20,教程)的会议记录。
张敏嘉, 何宇雄. (2020) 通过渐进层丢弃加速基于 Transformer 的语言模型的训练。 arXiv:2010.13369 和 NeurIPS 2020。
任杰、Samyam Rajbhandari、Reza Yazdani Aminabadi、Olatunji Ruwase、杨双艳、张敏嘉、李东、何宇雄。 (2021) ZeRO-Offload:数十亿规模的模型训练民主化。 arXiv:2101.06840 和 USENIX ATC 2021。[论文][幻灯片][博客]
唐汉林,甘少多,Ammar Ahmad Awan,Samyam Rajbhandari,李从龙,连相如,刘吉,张策,何宇雄。 (2021) 1 位 Adam:具有 Adam 收敛速度的高效通信大规模训练。 arXiv:2102.02888 和 ICML 2021。
Samyam Rajbhandari、Olatunji Ruwase、Jeff Rasley、Shaden Smith、何宇雄。 (2021) ZeRO-Infinity:打破超大规模深度学习的 GPU 内存墙。 arXiv:2104.07857 和 SC 2021。[论文][幻灯片][博客]
李从龙、Ammar Ahmad Awan、Hanlin Tang、Samyam Rajbhandari、Yyuxiong He。 (2021) 1 位 LAMB:利用 LAMB 的收敛速度进行通信高效的大规模大批量训练。 arXiv:2104.06069 和 HiPC 2022。
李从龙, 张敏佳, 何宇雄. (2021) 稳定性-效率困境:研究训练 GPT 模型的序列长度预热。 arXiv:2108.06084 和 NeurIPS 2022。
卢玉成,李从龙,张敏佳,克里斯托弗·德·萨,何宇雄。 (2022) 通过 0/1 Adam 最大限度地提高大规模培训的通信效率。 arXiv:2202.06009。
Samyam Rajbhandari、李从龙、姚哲伟、张敏佳、Reza Yazdani Aminabadi、Ammar Ahmad Awan、Jeff Rasley、何宇雄。 (2022) DeepSpeed-MoE:推进专家混合推理和训练,为下一代 AI 规模提供动力 arXiv:2201.05596 和 ICML 2022。 [pdf] [幻灯片] [博客]
沙登·史密斯、莫斯托法·帕特瓦里、布兰登·诺里克、帕特里克·勒格雷斯利、萨姆亚姆·拉杰班达里、贾里德·卡斯帕、刘准、什里迈·帕布胡莫耶、乔治·泽维斯、维杰·科蒂坎蒂、埃尔顿·张、Rewon Child、雷扎·亚兹达尼·阿米纳巴迪、朱莉·伯瑙尔、夏松、穆罕默德·舒伊比、宇雄他,迈克尔·休斯顿,索拉布·蒂瓦里,布莱恩·卡坦扎罗。 (2022) 使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B,一种大规模生成语言模型 arXiv:2201.11990。
吴晓霞,姚哲伟,张敏佳,李从龙,何宇雄。 (2022) 预训练 Transformer 的极限压缩变得简单高效。 arXiv:2206.01859 和 NeurIPS 2022。
姚哲伟、Reza Yazdani Aminabadi、张敏佳、吴晓霞、李从龙、何宇雄。 (2022) ZeroQuant:针对大型 Transformer 的高效且经济实惠的训练后量化。 arXiv:2206.01861 和 NeurIPS 2022 [幻灯片] [博客]
Reza Yazdani Aminabadi、Samyam Rajbhandari、张敏嘉、Ammar Ahmad Awan、程力、杜力、Elton Cheng、Jeff Rasley、Shaden Smith、Olatunji Ruwase、何宇雄。 (2022) DeepSpeed Inference:以前所未有的规模实现 Transformer 模型的高效推理。 arXiv:2207.00032 和 SC 2022。[论文][幻灯片][博客]
姚哲伟、吴晓霞、李从龙、Connor Holmes、张敏嘉、李成、何宇雄。 (2022) Random-LTD:随机分层令牌丢弃为大规模 Transformer 带来高效训练。 arXiv:2211.11586。
李从龙,姚哲伟,吴晓霞,张敏佳,何宇雄。 (2022) DeepSpeed 数据效率:通过高效数据采样和路由提高深度学习模型质量和训练效率。 arXiv:2212.03597 NeurIPS2023 的 ENLSP2023 研讨会
吴晓霞,李程,Reza Yazdani Aminabadi,姚哲伟,何宇雄。 (2023) 了解 Transformer 模型的 INT4 量化:延迟加速、可组合性和故障案例。 arXiv:2301.12017 和 ICML2023。
赛义德·扎瓦德、李成、姚哲伟、郑埃尔顿、何宇雄、严锋。 (2023) DySR:通过算法和系统协同设计实现自适应超分辨率。 ICLR:2023。
申盛、姚哲伟、李春元、Trevor Darrell、Kurt Keutzer、何宇雄。 (2023) 用稀疏的专家组合扩展视觉语言模型。 arXiv:2303.07226 和 EMNLP2023 上的发现。
昆汀·安东尼、阿马尔·艾哈迈德·阿万、杰夫·拉斯利、何宇雄、阿米尔·沙菲、穆斯塔法·阿卜杜勒贾巴尔、哈里·苏布拉莫尼、达巴莱斯瓦尔·潘达。 (2023) MCR-DL:深度学习的混合匹配通信运行时 arXiv:2303.08374 并将出现在 IPDPS 2023 上。
Siddharth Singh、Olatunji Ruwase、Ammar Ahmad Awan、Samyam Rajbhandari、Yyuxiong He、Abhinav Bhatele。 (2023) 用于优化专家混合训练的混合张量-专家-数据并行方法 arXiv:2303.06318 并将出现在 ICS 2023 上。
王冠华、秦鹤阳、Sam Ade Jacobs、吴晓霞、Connor Holmes、Zhewei Yao、Samyam Rajbhandari、Olatunji Ruwase、Feng Yan、Lei Yang、Yyuxiong He。 (2023) ZeRO++:巨型模型训练的极其高效的集体通信 arXiv:2306.10209 和 NeurIPS2023 的 Sys 研讨会的 ML [博客]
姚哲伟、吴晓霞、李程、Stephen Youn、何宇雄。 (2023) ZeroQuant-V2:从综合研究到低阶补偿探索法学硕士的训练后量化 arXiv:2303.08302 和 NeurIPS2023 的 ENLSP2023 研讨会 [幻灯片]
帕雷萨·阿梅内·戈尔纳里 (Pareesa Ameneh Golnari),姚哲伟,何宇雄。 (2023) 选择性引导:引导扩散的所有去噪步骤都很重要吗? arXiv:2305.09847
姚哲伟、Reza Yazdani Aminabadi、Olatunji Ruwase、Samyam Rajbhandari、吴晓霞、Ammar Ahmad Awan、Jeff Rasley、张敏佳、李从龙、Connor Holmes、周中柱、Michael Wyatt、Molly Smith、Lev Kurilenko、Heyang Qing、Masahiro Tanaka、车帅、宋帅文、何宇雄。 (2023) DeepSpeed-Chat:简单、快速且经济实惠的所有规模的类似 ChatGPT 模型的 RLHF 训练 arXiv:2308.01320。
吴晓霞,姚哲伟,何宇雄。 (2023) ZeroQuant-FP:使用浮点格式进行 LLM 训练后 W4A8 量化的飞跃 arXiv:2307.09782 和 NeurIPS2023 的 ENLSP2023 研讨会 [幻灯片]
姚哲伟、吴晓霞、李从龙、张敏佳、秦河阳、Olatunji Ruwase、Ammar Ahmad Awan、Samyam Rajbhandari、何宇雄。 (2023) DeepSpeed-VisualChat:通过多模态因果注意进行多轮多图像交错聊天 arXiv:2309.14327
帅文 Leon Song、Bonnie Kruft、Minjia 张、李从龙、陈世阳、张成明、Masahiro Tanaka、吴晓霞、Jeff Rasley、Ammar Ahmad Awan、Connor Holmes、Martin Cai、Adam Ghanem、Zhongzhu Zhou、Yyuxiong He 等。 (2023) DeepSpeed4Science Initiative:通过复杂的人工智能系统技术实现大规模科学发现 arXiv:2310.04610 [博客]
姚哲伟、Reza Yazdani Aminabadi、Stephen Youn、吴晓霞、Elton Cheng、何宇雄。 (2023) ZeroQuant-HERO:W8A8 Transformers 的硬件增强型鲁棒优化后训练量化框架 arXiv:2310.17723
吴晓霞、夏浩军、Stephen Youn、Zhen Cheng、Shiyang Chen、Arash Bakhtiari、Michael Wyatt、Reza Yazdani Aminabadi、Yyuxiong He、Olatunji Ruwase、Leon Song、Zhewei Yao (2023) ZeroQuant(4+2):重新定义法学硕士量化针对多样化生成任务的新的以 FP6 为中心的策略arXiv:2312.08583
夏浩军、郑振、吴晓霞、陈世阳、姚哲伟、Stephen Youn、Arash Bakhtiari、Michael Wyatt、Donglin Zhuang、Zhongzhu Zhou、Olatunji Ruwase、Yyuxiong He、Shuaiwen Leon Song。 (2024) FP6-LLM:通过以 FP6 为中心的算法系统协同设计高效服务大型语言模型 arXiv:2401.14112
Sam Ade Jacobs、Masahiro Tanaka、张成明、张敏佳、Reza Yazdani Aminadabi、Shuaiwen Leon Song、Samyam Rajbhandari、何宇雄。 (2024) 用于训练极长序列变压器模型的系统优化
Xinyu Lian、Sam Ade Jacobs、Lev Kurilenko、Masahiro Tanaka、Stas Bekman、Olatunji Ruwase、张敏佳。 (2024) 通用检查点:大规模分布式训练的高效灵活的检查点 arXiv:2406.18820