DeepSpeed를 시작하는 가장 빠른 방법은 pip를 사용하는 것입니다. 이렇게 하면 특정 PyTorch 또는 CUDA 버전에 연결되지 않은 DeepSpeed의 최신 릴리스가 설치됩니다. DeepSpeed에는 일반적으로 'ops'라고 부르는 여러 C++/CUDA 확장이 포함되어 있습니다. 기본적으로 이러한 모든 확장/작업은 닌자를 사용하여 런타임에 빌드하고 동적으로 연결하는 토치의 JIT C++ 확장 로더를 사용하여 JIT(Just-In-Time)로 빌드됩니다.
기부자 | 하드웨어 | 가속기 이름 | 기여자가 검증되었습니다. | 업스트림 검증됨 |
---|---|---|---|---|
화웨이 | 화웨이 어센드 NPU | npu | 예 | 아니요 |
인텔 | Intel(R) Gaudi(R) 2 AI 가속기 | HP | 예 | 예 |
인텔 | 인텔(R) 제온(R) 프로세서 | CPU | 예 | 예 |
인텔 | Intel(R) 데이터 센터 GPU Max 시리즈 | 엑스푸 | 예 | 예 |
우리는 정기적으로 PyPI에 릴리스를 푸시하고 대부분의 경우 사용자가 PyPI에서 설치하도록 권장합니다.
pip install deepspeed
설치 후에는 DeepSpeed 환경 보고서를 통해 설치를 검증하고 시스템이 호환되는 확장/ops를 확인할 수 있습니다.
ds_report
DeepSpeed 확장/작업(JIT 컴파일 대신)을 사전 설치하거나 PyPI를 통해 사전 컴파일된 작업을 설치하려면 고급 설치 지침을 참조하세요.
Windows 지원은 DeepSpeed에서 부분적으로 지원됩니다. Windows에서는 다음 단계에 따라 휠을 구축할 수 있습니다. 현재는 추론 모드만 지원됩니다.
python setup.py bdist_wheel
실행하여 dist
폴더에 휠을 만듭니다.DeepSpeed-Training, DeepSpeed-Inference 및 DeepSpeed-Compression 페이지에서 이 세 가지 원칙에 따라 제공되는 전체 기능 세트를 확인하세요.
모든 DeepSpeed 문서, 튜토리얼 및 블로그는 당사 웹사이트 deepspeed.ai에서 찾을 수 있습니다.
설명 | |
---|---|
시작하기 | DeepSpeed의 첫 번째 단계 |
DeepSpeed JSON 구성 | DeepSpeed 구성 |
API 문서 | 생성된 DeepSpeed API 문서 |
튜토리얼 | 튜토리얼 |
블로그 | 블로그 |
DeepSpeed는 여러분의 기여를 환영합니다! 형식 지정, 테스트 등에 대한 자세한 내용은 기여 가이드를 참조하세요.
우리의 놀라운 기여자들 모두에게 정말 감사드립니다!
이 프로젝트는 기여와 제안을 환영합니다. 대부분의 기여에는 귀하가 귀하의 기여를 사용할 권리가 있고 실제로 그렇게 할 권리가 있음을 선언하는 기여자 라이센스 계약(CLA)에 동의해야 합니다. 자세한 내용을 보려면 https://cla.opensource.microsoft.com을 방문하세요.
끌어오기 요청을 제출하면 CLA 봇이 자동으로 CLA 제공이 필요한지 여부를 결정하고 PR을 적절하게 장식합니다(예: 상태 확인, 댓글). 봇이 제공하는 지침을 따르기만 하면 됩니다. CLA를 사용하여 모든 저장소에서 이 작업을 한 번만 수행하면 됩니다.
이 프로젝트는 Microsoft 오픈 소스 행동 강령을 채택했습니다. 자세한 내용은 행동 강령 FAQ를 참조하거나 추가 질문이나 의견이 있는 경우 [email protected]으로 문의하세요.
Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. (2019) ZeRO: 1조 매개변수 모델 훈련을 위한 메모리 최적화. arXiv:1910.02054 및 고성능 컴퓨팅, 네트워킹, 저장 및 분석을 위한 국제 컨퍼런스(SC '20) 진행 중.
제프 라슬리, 삼얌 라즈반다리, 올라툰지 루와세, 허 유웅. (2020) DeepSpeed: 시스템 최적화를 통해 1000억 개가 넘는 매개변수를 사용하여 딥 러닝 모델을 훈련할 수 있습니다. 지식 발견 및 데이터 마이닝에 관한 제26차 ACM SIGKDD 국제 컨퍼런스 진행 중(KDD '20, 튜토리얼).
장민지아, 허위웅. (2020) 점진적 계층 삭제를 통한 변환기 기반 언어 모델의 훈련 가속화. arXiv:2010.13369 및 NeurIPS 2020.
Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He. (2021) ZeRO-Offload: 수십억 규모의 모델 교육 민주화. arXiv:2101.06840 및 USENIX ATC 2021. [논문] [슬라이드] [블로그]
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He. (2021) 1비트 아담: 아담의 수렴 속도를 통한 통신 효율적인 대규모 훈련. arXiv:2102.02888 및 ICML 2021.
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He. (2021) ZeRO-Infinity: 극한 규모의 딥 러닝을 위해 GPU 메모리 벽을 허물다. arXiv:2104.07857 및 SC 2021. [논문] [슬라이드] [블로그]
Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He. (2021) 1비트 LAMB: LAMB의 수렴 속도를 통한 통신 효율적인 대규모 대규모 배치 훈련. arXiv:2104.06069 및 HiPC 2022.
Conglong Li, Minjia Zhang, Yuxiong He. (2021) 안정성-효율성 딜레마: GPT 모델 교육을 위한 시퀀스 길이 워밍업 조사. arXiv:2108.06084 및 NeurIPS 2022.
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He. (2022) 0/1 Adam을 통한 대규모 훈련을 위한 통신 효율성 극대화. arXiv:2202.06009.
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He. (2022) DeepSpeed-MoE: 차세대 AI 규모 arXiv:2201.05596 및 ICML 2022를 지원하기 위한 전문가 혼합 추론 및 교육 발전. [pdf] [슬라이드] [블로그]
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong 그, 마이클 휴스턴, 사우라브 티워리, 브라이언 카탄자로. (2022) DeepSpeed 및 Megatron을 사용하여 대규모 생성 언어 모델인 Megatron-Turing NLG 530B 훈련 arXiv:2201.11990.
Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He. (2022) 간단하고 효율적으로 만들어진 사전 훈련된 변환기를 위한 극한 압축. arXiv:2206.01859 및 NeurIPS 2022.
Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He. (2022) ZeroQuant: 대규모 변압기를 위한 효율적이고 저렴한 훈련 후 양자화. arXiv:2206.01861 및 NeurIPS 2022 [슬라이드] [블로그]
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He. (2022) DeepSpeed 추론: 전례 없는 규모로 변압기 모델의 효율적인 추론 지원. arXiv:2207.00032 및 SC 2022. [논문] [슬라이드] [블로그]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He. (2022) Random-LTD: 무작위 및 계층별 토큰 삭제로 대규모 변압기에 대한 효율적인 교육을 제공합니다. arXiv:2211.11586.
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He. (2022) DeepSpeed 데이터 효율성: 효율적인 데이터 샘플링 및 라우팅을 통해 딥 러닝 모델 품질 및 교육 효율성 향상. arXiv:2212.03597 ENLSP2023 NeurIPS2023 워크숍
Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He. (2023) Transformer 모델의 INT4 양자화 이해: 지연 속도 향상, 구성 가능성 및 실패 사례. arXiv:2301.12017 및 ICML2023.
Syed Zawad, Cheng Li, Zhewei Yao, Elton Zheng, Yuxiong He, Feng Yan. (2023) DySR: 알고리즘 및 시스템 공동 설계를 통한 적응형 초해상도. ICLR:2023.
Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He. (2023) 전문가의 희박한 혼합을 통한 비전-언어 모델 확장. arXiv:2303.07226 및 EMNLP2023에서 검색.
쿠엔틴 앤서니, 아마르 아마드 아완, 제프 라슬리, 허 위시옹, 아미르 샤피, 무스타파 압둘자바르, 하리 수브라모니, 다발레스와르 판다. (2023) MCR-DL: 딥 러닝을 위한 혼합 및 일치 통신 런타임 arXiv:2303.08374이며 IPDPS 2023에 나타날 예정입니다.
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele. (2023) 전문가 혼합 교육을 최적화하기 위한 하이브리드 텐서-전문가-데이터 병렬성 접근 방식 arXiv:2303.06318이며 ICS 2023에 나타날 예정입니다.
Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Xiaoxia Wu, Connor Holmes, Zhewei Yao, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He. (2023) ZeRO++: 거대 모델 훈련을 위한 매우 효율적인 집단 커뮤니케이션 arXiv:2306.10209 및 NeurIPS2023의 Sys 워크샵을 위한 ML [블로그]
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He. (2023) ZeroQuant-V2: 포괄적 연구에서 낮은 순위 보상까지 LLM의 훈련 후 양자화 탐색 arXiv:2303.08302 및 NeurIPS2023의 ENLSP2023 워크숍 [슬라이드]
Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He. (2023) 선택적 안내: 유도 확산의 모든 노이즈 제거 단계가 중요합니까? arXiv:2305.09847
Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He. (2023) DeepSpeed-Chat: 모든 규모의 ChatGPT 유사 모델에 대한 쉽고 빠르며 저렴한 RLHF 교육 arXiv:2308.01320.
Xiaoxia Wu, Zhewei Yao, Yuxiong He. (2023) ZeroQuant-FP: 부동 소수점 형식 arXiv:2307.09782 및 ENLSP2023을 사용한 LLM 사후 교육 W4A8 양자화의 도약 NeurIPS2023 워크숍 [슬라이드]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. (2023) DeepSpeed-VisualChat: 다중 모달 인과 주의를 통한 다중 라운드 다중 이미지 인터리브 채팅 arXiv:2309.14327
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He 등 (2023) DeepSpeed4Science Initiative: 정교한 AI 시스템 기술을 통해 대규모 과학적 발견 지원 arXiv:2310.04610 [블로그]
Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He. (2023) ZeroQuant-HERO: W8A8 Transformers를 위한 하드웨어로 강화된 강력하고 최적화된 훈련 후 양자화 프레임워크 arXiv:2310.17723
Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Reza Yazdani Aminabadi, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao(2023) ZeroQuant(4+2): LLM 양자화 재정의 다양한 생성 작업을 위한 새로운 FP6 중심 전략 arXiv:2312.08583
Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song. (2024) FP6-LLM: FP6 중심 알고리즘 시스템 공동 설계를 통해 대규모 언어 모델을 효율적으로 제공 arXiv:2401.14112
샘 에이드 제이콥스, 타나카 마사히로, 장청밍, 장민지아, 레자 야즈다니 아미나다비, 슈아이웬 레온 송, 삼얌 라즈반다리, 허 위시옹. (2024) 극도로 긴 시퀀스 변압기 모델의 훈련을 지원하기 위한 시스템 최적화
신유 리안, 샘 에이드 제이콥스, 레프 쿠릴렌코, 다나카 마사히로, 스타스 벡만, 올라툰지 루와세, 민지아 장. (2024) 범용 체크포인트: 대규모 분산 교육을 위한 효율적이고 유연한 체크포인트 arXiv:2406.18820