Le moyen le plus rapide de démarrer avec DeepSpeed est via pip, cela installera la dernière version de DeepSpeed qui n'est pas liée aux versions spécifiques de PyTorch ou CUDA. DeepSpeed inclut plusieurs extensions C++/CUDA que nous appelons communément nos « opérations ». Par défaut, toutes ces extensions/opérations seront construites juste à temps (JIT) à l'aide du chargeur d'extension JIT C++ de Torch qui s'appuie sur Ninja pour les créer et les lier dynamiquement au moment de l'exécution.
Donateur | Matériel | Nom de l'accélérateur | Contributeur validé | Validé en amont |
---|---|---|---|---|
Huawei | Huawei Ascend NPU | npu | Oui | Non |
Intel | Accélérateur d'IA Intel(R) Gaudi(R) 2 | HPU | Oui | Oui |
Intel | Processeurs Intel(R) Xeon(R) | processeur | Oui | Oui |
Intel | Série Intel(R) Data Center GPU Max | xpu | Oui | Oui |
Nous transmettons régulièrement des versions à PyPI et encourageons les utilisateurs à les installer à partir de là dans la plupart des cas.
pip install deepspeed
Après l'installation, vous pouvez valider votre installation et voir avec quelles extensions/opérations votre machine est compatible via le rapport d'environnement DeepSpeed.
ds_report
Si vous souhaitez préinstaller l'une des extensions/opérations DeepSpeed (au lieu de la compilation JIT) ou installer des opérations précompilées via PyPI, veuillez consulter nos instructions d'installation avancées.
La prise en charge de Windows est partiellement prise en charge avec DeepSpeed. Sous Windows, vous pouvez créer une roue en suivant les étapes suivantes. Actuellement, seul le mode d'inférence est pris en charge.
python setup.py bdist_wheel
pour créer la roue dans le dossier dist
Veuillez consulter les pages DeepSpeed-Training, DeepSpeed-Inference et DeepSpeed-Compression pour connaître l'ensemble complet des fonctionnalités proposées pour chacun de ces trois piliers.
Toute la documentation, les didacticiels et les blogs DeepSpeed sont disponibles sur notre site Web : deepspeed.ai
Description | |
---|---|
Commencer | Premiers pas avec DeepSpeed |
Configuration JSON DeepSpeed | Configuration de DeepSpeed |
Documentation API | Documentation générée sur l'API DeepSpeed |
Tutoriels | Tutoriels |
Blogues | Blogues |
DeepSpeed accueille vos contributions ! Veuillez consulter notre guide de contribution pour plus de détails sur le formatage, les tests, etc.
Merci beaucoup à tous nos incroyables contributeurs !
Ce projet accueille les contributions et suggestions. La plupart des contributions nécessitent que vous acceptiez un contrat de licence de contributeur (CLA) déclarant que vous avez le droit de nous accorder, et que vous nous accordez effectivement, le droit d'utiliser votre contribution. Pour plus de détails, visitez https://cla.opensource.microsoft.com.
Lorsque vous soumettez une pull request, un robot CLA déterminera automatiquement si vous devez fournir un CLA et décorera le PR de manière appropriée (par exemple, vérification du statut, commentaire). Suivez simplement les instructions fournies par le bot. Vous n’aurez besoin de le faire qu’une seule fois pour tous les dépôts utilisant notre CLA.
Ce projet a adopté le code de conduite Microsoft Open Source. Pour plus d’informations, consultez la FAQ sur le code de conduite ou contactez [email protected] pour toute question ou commentaire supplémentaire.
Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. (2019) ZeRO : optimisations de la mémoire vers la formation de modèles de paramètres de milliers de milliards. arXiv : 1910.02054 et dans les actes de la Conférence internationale sur le calcul, les réseaux, le stockage et l'analyse haute performance (SC '20).
Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase et Yuxiong He. (2020) DeepSpeed : les optimisations du système permettent de former des modèles d'apprentissage profond avec plus de 100 milliards de paramètres. Dans les actes de la 26e conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données (KDD '20, tutoriel).
Minjia Zhang, Yuxiong He. (2020) Accélération de la formation des modèles de langage basés sur des transformateurs avec suppression progressive des couches. arXiv :2010.13369 et NeurIPS 2020.
Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He. (2021) ZeRO-Offload : Démocratiser la formation de modèles à l’échelle d’un milliard. arXiv : 2101.06840 et USENIX ATC 2021. [papier] [diapositives] [blog]
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He. (2021) Adam 1 bit : formation à grande échelle efficace en communication avec la vitesse de convergence d'Adam. arXiv :2102.02888 et ICML 2021.
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He. (2021) ZeRO-Infinity : briser le mur de la mémoire GPU pour un apprentissage profond à grande échelle. arXiv : 2104.07857 et SC 2021. [papier] [diapositives] [blog]
Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He. (2021) LAMB 1 bit : formation efficace en matière de communication à grande échelle et par lots avec la vitesse de convergence de LAMB. arXiv :2104.06069 et HiPC 2022.
Conglong Li, Minjia Zhang, Yuxiong He. (2021) Le dilemme stabilité-efficacité : enquête sur l'échauffement de la longueur de séquence pour la formation des modèles GPT. arXiv :2108.06084 et NeurIPS 2022.
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He. (2022) Maximiser l’efficacité de la communication pour une formation à grande échelle via 0/1 Adam. arXiv :2202.06009.
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He. (2022) DeepSpeed-MoE : Faire progresser l'inférence et la formation d'un mélange d'experts pour alimenter l'échelle d'IA de nouvelle génération arXiv : 2201.05596 et ICML 2022. [pdf] [diapositives] [blog]
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong Lui, Michael Houston, Saurabh Tiwary, Bryan Catanzaro. (2022) Utilisation de DeepSpeed et Megatron pour former Megatron-Turing NLG 530B, un modèle de langage génératif à grande échelle arXiv :2201.11990.
Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He. (2022) Compression extrême pour les transformateurs pré-entraînés rendus simples et efficaces. arXiv :2206.01859 et NeurIPS 2022.
Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He. (2022) ZeroQuant : Quantification post-formation efficace et abordable pour les transformateurs à grande échelle. arXiv : 2206.01861 et NeurIPS 2022 [diapositives] [blog]
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He. (2022) Inférence DeepSpeed : permettre une inférence efficace de modèles de transformateurs à une échelle sans précédent. arXiv : 2207.00032 et SC 2022. [papier] [diapositives] [blog]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He. (2022) Random-LTD : la suppression aléatoire et par couches de jetons apporte une formation efficace pour les transformateurs à grande échelle. arXiv :2211.11586.
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He. (2022) Efficacité des données DeepSpeed : améliorer la qualité du modèle d'apprentissage en profondeur et l'efficacité de la formation via un échantillonnage et un routage efficaces des données. arXiv:2212.03597 Atelier ENLSP2023 à NeurIPS2023
Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He. (2023) Comprendre la quantification INT4 pour les modèles de transformateur : accélération de la latence, composabilité et cas de défaillance. arXiv :2301.12017 et ICML2023.
Syed Zawad, Cheng Li, Zhewei Yao, Elton Zheng, Yuxiong He, Feng Yan. (2023) DySR : Super-résolution adaptative via un algorithme et une co-conception de système. ICLR : 2023.
Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He. (2023) Mise à l’échelle des modèles vision-langage avec un mélange clairsemé d’experts. arXiv : 2303.07226 et découverte à EMNLP2023.
Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda. (2023) MCR-DL : Mix-and-Match Communication Runtime for Deep Learning arXiv :2303.08374 et apparaîtra à l'IPDPS 2023.
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele. (2023) Une approche hybride de parallélisme tenseur-expert-données pour optimiser la formation mixte d'experts arXiv :2303.06318 et apparaîtra à l'ICS 2023.
Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Xiaoxia Wu, Connor Holmes, Zhewei Yao, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He. (2023) ZeRO++ : communication collective extrêmement efficace pour la formation de modèles géants arXiv : 2306.10209 et atelier ML pour Sys à NeurIPS2023 [blog]
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He. (2023) ZeroQuant-V2 : Exploration de la quantification post-formation dans les LLM, de l'étude approfondie à la compensation de bas rang arXiv : 2303.08302 et atelier ENLSP2023 à NeurIPS2023 [diapositives]
Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He. (2023) Orientation sélective : toutes les étapes de débruitage de la diffusion guidée sont-elles importantes ? arXiv:2305.09847
Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He. (2023) DeepSpeed-Chat : formation RLHF facile, rapide et abordable de modèles de type ChatGPT à toutes les échelles arXiv : 2308.01320.
Xiaoxia Wu, Zhewei Yao, Yuxiong He. (2023) ZeroQuant-FP : Un pas en avant dans la quantification W4A8 post-formation des LLM à l'aide des formats à virgule flottante arXiv : 2307.09782 et atelier ENLSP2023 à NeurIPS2023 [diapositives]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. (2023) DeepSpeed-VisualChat : chat entrelacé multi-images à plusieurs tours via une attention causale multimodale arXiv : 2309.14327
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He et al. (2023) Initiative DeepSpeed4Science : Permettre la découverte scientifique à grande échelle grâce à des technologies de système d'IA sophistiquées arXiv :2310.04610 [blog]
Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He. (2023) ZeroQuant-HERO : cadre de quantification post-formation optimisé, robuste et amélioré par le matériel pour les transformateurs W8A8 arXiv : 2310.17723
Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Reza Yazdani Aminabadi, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao (2023) ZeroQuant(4+2) : redéfinir la quantification des LLM avec une nouvelle stratégie centrée sur le 6e PC pour diverses tâches génératives arXiv:2312.08583
Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song. (2024) FP6-LLM : Servir efficacement de grands modèles de langage grâce à la co-conception d'algorithmes et de systèmes centrés sur FP6 arXiv : 2401.14112
Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Reza Yazdani Aminadabi, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He. (2024) Optimisations du système pour permettre la formation de modèles de transformateurs à séquence extrêmement longue
Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang. (2024) Points de contrôle universels : points de contrôle efficaces et flexibles pour la formation distribuée à grande échelle arXiv :2406.18820