DeepSpeed を使い始める最も簡単な方法は pip を使用することです。これにより、特定の PyTorch または CUDA バージョンに関連付けられていない DeepSpeed の最新リリースがインストールされます。 DeepSpeed には、一般に「ops」と呼ばれるいくつかの C++/CUDA 拡張機能が含まれています。デフォルトでは、これらの拡張機能/操作はすべて、実行時にビルドして動的にリンクするために ninja に依存する torch の JIT C++ 拡張ローダーを使用して、ジャストインタイム (JIT) でビルドされます。
投稿者 | ハードウェア | アクセラレータ名 | 貢献者が検証されました | 上流で検証済み |
---|---|---|---|---|
ファーウェイ | ファーウェイアセンドNPU | ンプ | はい | いいえ |
インテル | Intel(R) Gaudi(R) 2 AI アクセラレータ | hpu | はい | はい |
インテル | インテル(R) Xeon(R) プロセッサー | CPU | はい | はい |
インテル | インテル(R) データセンター GPU Max シリーズ | xpu | はい | はい |
私たちは定期的にリリースを PyPI にプッシュし、ほとんどの場合、そこからインストールすることをユーザーに奨励します。
pip install deepspeed
インストール後、インストールを検証し、DeepSpeed 環境レポートを通じてマシンがどの拡張機能/OP と互換性があるかを確認できます。
ds_report
DeepSpeed 拡張機能/OP を (JIT コンパイルの代わりに) プレインストールする場合、または PyPI 経由でコンパイル済みの Op をインストールする場合は、高度なインストール手順を参照してください。
Windows サポートは、DeepSpeed で部分的にサポートされています。 Windows では、次の手順でホイールを構築できます。現在、推論モードのみがサポートされています。
python setup.py bdist_wheel
実行してdist
フォルダーにホイールを構築しますこれら 3 つの柱のそれぞれに沿って提供される機能の完全なセットについては、DeepSpeed-Training、DeepSpeed-Inference、および DeepSpeed-Compression のページをご覧ください。
DeepSpeed のすべてのドキュメント、チュートリアル、ブログは、当社の Web サイト deepspeed.ai でご覧いただけます。
説明 | |
---|---|
はじめる | DeepSpeed の最初のステップ |
DeepSpeed JSON 構成 | DeepSpeed の構成 |
APIドキュメント | 生成された DeepSpeed API ドキュメント |
チュートリアル | チュートリアル |
ブログ | ブログ |
DeepSpeed はあなたの貢献を歓迎します!フォーマットやテストなどの詳細については、貢献ガイドを参照してください。
素晴らしい貢献者の皆様に心より感謝申し上げます。
このプロジェクトは貢献と提案を歓迎します。ほとんどの投稿では、投稿を使用する権利をお客様が有しており、実際に当社に付与することを宣言する投稿者ライセンス契約 (CLA) に同意する必要があります。詳細については、https://cla.opensource.microsoft.com をご覧ください。
プル リクエストを送信すると、CLA ボットが CLA を提供する必要があるかどうかを自動的に判断し、PR を適切に装飾します (ステータス チェック、コメントなど)。ボットが提供する指示に従ってください。 CLA を使用するすべてのリポジトリでこれを 1 回行うだけで済みます。
このプロジェクトはマイクロソフトのオープンソース行動規範を採用しています。詳細については、「行動規範に関するよくある質問」を参照するか、追加の質問やコメントがあれば [email protected] までお問い合わせください。
サムヤム・ラジバンダリ、ジェフ・ラズリー、オラトゥンジ・ルワセ、ユション・ヘ。 (2019) ZeRO: 兆パラメータ モデルのトレーニングに向けたメモリの最適化。 arXiv:1910.02054 およびハイ パフォーマンス コンピューティング、ネットワーキング、ストレージ、および分析に関する国際会議 (SC '20) の議事録。
ジェフ・ラズリー、サムヤム・ラジバンダリ、オラトゥンジ・ルワセ、ユション・ヘ。 (2020) DeepSpeed: システムの最適化により、1,000 億を超えるパラメーターを使用した深層学習モデルのトレーニングが可能になります。第 26 回 ACM SIGKDD 知識発見とデータ マイニング国際会議の議事録 (KDD '20、チュートリアル)。
ミンジア・チャン、何ユション。 (2020) プログレッシブ レイヤー ドロップによるトランスフォーマーベースの言語モデルのトレーニングの加速。 arXiv:2010.13369 および NeurIPS 2020。
Jie Ren、Samyam Rajbhandari、Reza Yazdani Aminabadi、Olatunji Ruwase、Shuangyan Yang、Minjia Zhang、Dong Li、Yuxiong He。 (2021) ZeRO-Offload: 10 億規模のモデル トレーニングの民主化。 arXiv:2101.06840 および USENIX ATC 2021。 [論文] [スライド] [ブログ]
Hanlin Tang、Shaoduo Gan、Ammar Ahmad Awan、Samyam Rajbhandari、Conglong Li、Xiangru Lian、Ji Liu、Ce Zhang、Yuxiong He。 (2021) 1 ビット アダム: アダムの収束速度によるコミュニケーション効率の高い大規模トレーニング。 arXiv:2102.02888 および ICML 2021。
サムヤム・ラジバンダリ、オラトゥンジ・ルワセ、ジェフ・ラズリー、シェイデン・スミス、ユション・ヘ。 (2021) ZeRO-Infinity: 極端なスケールの深層学習のための GPU メモリの壁を打ち破る。 arXiv:2104.07857 および SC 2021。[論文] [スライド] [ブログ]
Conglong Li、Ammar Ahmad Awan、Hanlin Tang、Samyam Rajbhandari、Yuxiong He。 (2021) 1 ビット LAMB: LAMB の収束速度による通信効率の高い大規模大バッチ トレーニング。 arXiv:2104.06069 および HiPC 2022。
Conglong Li、Minjia Zhang、Yuxiong He。 (2021) 安定性と効率のジレンマ: GPT モデルをトレーニングするためのシーケンス長ウォームアップの調査。 arXiv:2108.06084 および NeurIPS 2022。
Yucheng Lu、Conglong Li、Minjia Zhang、Christopher De Sa、Yuxiong He。 (2022) 0/1 Adam による大規模訓練の通信効率の最大化。 arXiv:2202.06009。
Samyam Rajbhandari、Conglong Li、Zhewei Yao、Minjia Zhang、Reza Yazdani Aminabadi、Ammar Ahmad Awan、Jeff Rasley、Yuxiong He。 (2022) DeepSpeed-MoE: 次世代 AI スケール arXiv:2201.05596 および ICML 2022 を強化するための専門家の混合推論とトレーニングの推進。 [pdf] [スライド] [ブログ]
シェイデン・スミス、モストファ・パトワリー、ブランドン・ノリック、パトリック・ルグレスリー、サムヤム・ラジバンダリ、ジャレッド・キャスパー、ズン・リウ、シュリマイ・プラブモエ、ジョージ・ゼルビアス、ヴィジェイ・コルティカンティ、エルトン・チャン、レウォン・チャイルド、レザ・ヤズダニ・アミナバディ、ジュリー・ベルナウアー、シア・ソング、モハマド・シューイビ、ユーション彼、マイケル・ヒューストン、サウラブ・ティワリー、ブライアン・カタンザーロ。 (2022) DeepSpeed と Megatron を使用した Megatron-Turing NLG 530B、大規模生成言語モデル arXiv:2201.11990 のトレーニング。
Xiaoxia Wu、Zheei Yao、Minjia Zhang、Conglong Li、Yuxiong He。 (2022) 事前トレーニングされたトランスフォーマーの極端な圧縮がシンプルかつ効率的になりました。 arXiv:2206.01859 および NeurIPS 2022。
ヤオ・ツェウェイ、レザー・ヤズダニ・アミナバディ、ミンジア・チャン、シャオシア・ウー、コンロン・リー、ユション・ヘ。 (2022) ZeroQuant: 大規模トランスフォーマー向けの効率的かつ手頃な価格のポストトレーニング量子化。 arXiv:2206.01861 および NeurIPS 2022 [スライド] [ブログ]
レザ・ヤズダニ・アミナバーディ、サムヤム・ラジバンダリ、ミンジア・チャン、アンマル・アフマド・アワン、チェン・リー、ドゥ・リー、エルトン・チェン、ジェフ・ラズリー、シェイデン・スミス、オラトゥンジ・ルワセ、ユション・ヘ。 (2022) DeepSpeed Inference: 前例のない規模でのトランス モデルの効率的な推論を可能にします。 arXiv:2207.00032 および SC 2022。[論文] [スライド] [ブログ]
Zheei Yao、Xiaoxia Wu、Conglong Li、Connor Holmes、Minjia Zhang、Cheng Li、Yuxiong He。 (2022) Random-LTD: ランダムおよびレイヤーごとのトークン ドロップにより、大規模変圧器の効率的なトレーニングが実現します。 arXiv:2211.11586。
Conglong Li、Zheei Yao、Xiaoxia Wu、Minjia Zhang、Yuxiong He。 (2022) DeepSpeed データ効率: 効率的なデータ サンプリングとルーティングによるディープ ラーニング モデルの品質とトレーニング効率の向上。 arXiv:2212.03597 NeurIPS2023 での ENLSP2023 ワークショップ
Xiaoxia Wu、Cheng Li、Reza Yazdani Aminabadi、Zhewei Yao、Yuxiong He。 (2023) 変圧器モデルの INT4 量子化の理解: レイテンシの高速化、構成可能性、および障害ケース。 arXiv:2301.12017 および ICML2023。
サイード・ザワド、チェン・リー、ヤオ・ジェウェイ、エルトン・ジェン、ユーション・ホー、フォン・ヤン。 (2023) DySR: アルゴリズムとシステムの共同設計による適応型超解像度。 ICLR:2023。
Sheng Shen、Zheei Yao、Chunyuan Li、Trevor Darrell、Kurt Keutzer、Yuxiong He。 (2023) 専門家のまばらな混合による視覚言語モデルのスケーリング。 arXiv:2303.07226 および EMNLP2023 での発見。
クエンティン・アンソニー、アンマー・アハマド・アワン、ジェフ・ラズリー、ユクソン・ヘ、アーミル・シャフィ、ムスタファ・アブドゥルジャバール、ハリ・スブラモニ、ダバレシュワル・パンダ。 (2023) MCR-DL: 深層学習用のミックス アンド マッチ通信ランタイム arXiv:2303.08374 であり、IPDPS 2023 に出展されます。
シッダース・シン、オラトゥンジ・ルワセ、アンマル・アフマド・アワン、サムヤム・ラジバンダリ、ユション・ヘ、アビナブ・バテレ。 (2023) A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize Mixture-of-Experts Training arXiv:2303.06318 であり、ICS 2023 で公開される予定です。
Guanhua Wang、Heyang Qin、Sam Ade Jacobs、Xiaoxia Wu、Connor Holmes、Zhewei Yao、Samyam Rajbhandari、Olatunji Ruwase、Feng Yan、Lei Yang、Yuxiong He。 (2023) ZeRO++: 巨大モデル トレーニングのための非常に効率的な集団通信 arXiv:2306.10209 および NeurIPS2023 での Sys ワークショップのための ML [ブログ]
姚哲偉、呉暁夏、チェン・リー、スティーブン・ユン、何玉雄。 (2023) ZeroQuant-V2: 包括的な研究から低ランク補償まで、LLM におけるトレーニング後の量子化の探索 arXiv:2303.08302 および NeurIPS2023 での ENLSP2023 ワークショップ [スライド]
パリーサ・アメネ・ゴルナリ、ジェーウェイ・ヤオ、ユーション・ヘ。 (2023) 選択的誘導: 誘導拡散のノイズ除去ステップはすべて重要ですか? arXiv:2305.09847
ジェウェイ・ヤオ、レザー・ヤズダニ・アミナバーディ、オラトゥンジ・ルワセ、サムヤム・ラジバンダリ、シャオシア・ウー、アンマル・アハマド・アワン、ジェフ・ラズリー、ミンジア・チャン、コンロン・リー、コナー・ホームズ、周中珠、マイケル・ワイアット、モリー・スミス、レフ・クリレンコ、ヘヤン・チン、マサヒロ・タナカ、 Shuai Che、Shuaiwen Leon Song、何宇雄さん。 (2023) DeepSpeed-Chat: あらゆるスケールでの ChatGPT のようなモデルの簡単、高速、手頃な価格の RLHF トレーニング arXiv:2308.01320。
Xiaoxia Wu、Zhewei Yao、Yuxiong He。 (2023) ZeroQuant-FP: 浮動小数点形式 arXiv:2307.09782 および ENLSP2023 ワークショップを使用した浮動小数点形式を使用した W4A8 量子化後のトレーニング後の LLM の飛躍 [スライド]
Zhewei Yao、Xiaoxia Wu、Conglong Li、Minjia Zhang、Heyang Qin、Olatunji Ruwase、Ammar Ahmad Awan、Samyam Rajbhandari、Yuxiong He。 (2023) DeepSpeed-VisualChat: マルチモーダル因果的注意によるマルチラウンド マルチイメージ インターリーブ チャット arXiv:2309.14327
Shuaiwen Leon Song、Bonnie Kruft、Minjia Zhang、Conglong Li、Shiyang Chen、Chengming Zhang、田中将大、Xiaoxia Wu、Jeff Rasley、Ammar Ahmad Awan、Connor Holmes、Martin Cai、Adam Ghanem、Zhongzhu Zhou、Yuxiong He、他。 (2023) DeepSpeed4Science Initiative: 洗練された AI システム テクノロジを通じて大規模な科学的発見を可能にする arXiv:2310.04610 [ブログ]
ヤオ・ジェウェイ、レザー・ヤズダニ・アミナバディ、スティーブン・ユン、シャオシア・ウー、エルトン・チェン、ユーション・ヘ。 (2023) ZeroQuant-HERO: W8A8 トランスフォーマー向けのハードウェア強化された堅牢で最適化されたトレーニング後の量子化フレームワーク arXiv:2310.17723
Xiaoxia Wu、Haojun Xia、Stephen Youn、Zhen Zheng、Shiyang Chen、Arash Bakhtiari、Michael Wyatt、Reza Yazdani Aminabadi、Yuxiong He、Olatunji Ruwase、Leon Song、Zhewei Yao (2023) ZeroQuant(4+2): LLM 量子化の再定義多様な生成のための新しい FP6 中心の戦略タスク arXiv:2312.08583
Haojun Xia、Zhen Zheng、Xiaoxia Wu、Shiyang Chen、Zhewei Yao、Stephen Youn、Arash Bakhtiari、Michael Wyatt、Donglin Zhuang、Zhongzhu Zhou、Olatunji Ruwase、Yuxiong He、Shuaiwen Leon Song。 (2024) FP6-LLM: FP6 中心のアルゴリズムとシステムの共同設計を通じて大規模な言語モデルを効率的に提供する arXiv:2401.14112
サム・アデ・ジェイコブス、田中将大、チャン・チェンミン、チャン・ミンジア、レザー・ヤズダニ・アミナダビ、シュアイウェン・レオン・ソング、サムヤム・ラジバンダリ、ユション・ヘ。 (2024) 非常に長いシーケンスの変圧器モデルのトレーニングを可能にするシステムの最適化
シンユー・リアン、サム・アデ・ジェイコブス、レフ・クリレンコ、田中将大、スタス・ベクマン、オラトゥンジ・ルワセ、ミンジア・チャン。 (2024) ユニバーサル チェックポイント: 大規模な分散トレーニングのための効率的かつ柔軟なチェックポイント arXiv:2406.18820