A maneira mais rápida de começar a usar o DeepSpeed é via pip, isso instalará a versão mais recente do DeepSpeed, que não está vinculada a versões específicas do PyTorch ou CUDA. DeepSpeed inclui várias extensões C++/CUDA que comumente chamamos de nossas 'ops'. Por padrão, todas essas extensões/operações serão construídas just-in-time (JIT) usando o carregador de extensão JIT C++ do torch que depende do ninja para construí-las e vinculá-las dinamicamente em tempo de execução.
Contribuinte | Hardware | Nome do acelerador | Colaborador validado | Validado a montante |
---|---|---|---|---|
Huawei | NPU Ascend da Huawei | npu | Sim | Não |
Informações | Acelerador de IA Intel(R) Gaudi(R) 2 | HPU | Sim | Sim |
Informações | Processadores Intel(R) Xeon(R) | CPU | Sim | Sim |
Informações | Série Intel(R) Data Center GPU Max | xpu | Sim | Sim |
Enviamos regularmente versões para o PyPI e incentivamos os usuários a instalar a partir daí na maioria dos casos.
pip install deepspeed
Após a instalação, você pode validar sua instalação e ver com quais extensões/operações sua máquina é compatível por meio do relatório de ambiente DeepSpeed.
ds_report
Se você quiser pré-instalar qualquer uma das extensões/ops do DeepSpeed (em vez da compilação JIT) ou instalar operações pré-compiladas via PyPI, consulte nossas instruções de instalação avançadas.
O suporte do Windows é parcialmente compatível com DeepSpeed. No Windows você pode construir a roda com as etapas a seguir; atualmente, apenas o modo de inferência é compatível.
python setup.py bdist_wheel
para construir o wheel na pasta dist
Confira as páginas DeepSpeed-Training, DeepSpeed-Inference e DeepSpeed-Compression para obter o conjunto completo de recursos oferecidos em cada um desses três pilares.
Toda a documentação, tutoriais e blogs do DeepSpeed podem ser encontrados em nosso site: deepspeed.ai
Descrição | |
---|---|
Começando | Primeiros passos com DeepSpeed |
Configuração JSON do DeepSpeed | Configurando DeepSpeed |
Documentação da API | Documentação gerada da API DeepSpeed |
Tutoriais | Tutoriais |
Blogues | Blogues |
DeepSpeed agradece suas contribuições! Consulte nosso guia de contribuição para obter mais detalhes sobre formatação, teste, etc.
Muito obrigado a todos os nossos incríveis colaboradores!
Este projeto aceita contribuições e sugestões. A maioria das contribuições exige que você concorde com um Contrato de Licença de Colaborador (CLA), declarando que você tem o direito de nos conceder, e realmente nos concede, os direitos de uso de sua contribuição. Para obter detalhes, visite https://cla.opensource.microsoft.com.
Quando você envia uma solicitação pull, um bot CLA determinará automaticamente se você precisa fornecer um CLA e decorará o PR adequadamente (por exemplo, verificação de status, comentário). Basta seguir as instruções fornecidas pelo bot. Você só precisará fazer isso uma vez em todos os repositórios usando nosso CLA.
Este projeto adotou o Código de Conduta de Código Aberto da Microsoft. Para obter mais informações, consulte as Perguntas frequentes sobre o Código de Conduta ou entre em contato com [email protected] com perguntas ou comentários adicionais.
Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. (2019) ZeRO: otimizações de memória para treinar modelos de trilhões de parâmetros. arXiv:1910.02054 e nos Anais da Conferência Internacional para Computação de Alto Desempenho, Rede, Armazenamento e Análise (SC '20).
Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase e Yuxiong He. (2020) DeepSpeed: Otimizações do sistema permitem o treinamento de modelos de aprendizado profundo com mais de 100 bilhões de parâmetros. Nos Anais da 26ª Conferência Internacional ACM SIGKDD sobre Descoberta de Conhecimento e Mineração de Dados (KDD '20, Tutorial).
Minjia Zhang, Yuxiong He. (2020) Acelerando o treinamento de modelos de linguagem baseados em transformadores com queda progressiva de camadas. arXiv:2010.13369 e NeurIPS 2020.
Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He. (2021) ZeRO-Offload: Democratizando o treinamento em modelo em escala de bilhões. arXiv:2101.06840 e USENIX ATC 2021. [artigo] [slides] [blog]
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He. (2021) Adam de 1 bit: Treinamento eficiente em comunicação em grande escala com velocidade de convergência de Adam. arXiv:2102.02888 e ICML 2021.
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He. (2021) ZeRO-Infinity: Quebrando a parede de memória da GPU para aprendizado profundo em escala extrema. arXiv:2104.07857 e SC 2021. [artigo] [slides] [blog]
Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He. (2021) LAMB de 1 bit: Treinamento eficiente em comunicação em grande escala e em grandes lotes com velocidade de convergência do LAMB. arXiv:2104.06069 e HiPC 2022.
Conglong Li, Minjia Zhang, Yuxiong He. (2021) O dilema estabilidade-eficiência: investigando o aquecimento do comprimento da sequência para treinar modelos GPT. arXiv:2108.06084 e NeurIPS 2022.
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He. (2022) Maximizando a eficiência da comunicação para treinamento em larga escala via 0/1 Adam. arXiv:2202.06009.
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He. (2022) DeepSpeed-MoE: Avançando a inferência e o treinamento da mistura de especialistas para potencializar a escala de IA da próxima geração arXiv:2201.05596 e ICML 2022. [pdf] [slides] [blog]
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong Ele, Michael Houston, Saurabh Tiwary, Bryan Catanzaro. (2022) Usando DeepSpeed e Megatron para treinar Megatron-Turing NLG 530B, um modelo de linguagem generativa em grande escala arXiv:2201.11990.
Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He. (2022) Compressão Extrema para Transformadores Pré-treinados Tornados Simples e Eficientes. arXiv:2206.01859 e NeurIPS 2022.
Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He. (2022) ZeroQuant: Quantização pós-treinamento eficiente e acessível para transformadores de grande escala. arXiv:2206.01861 e NeurIPS 2022 [slides] [blog]
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He. (2022) Inferência DeepSpeed: Habilitando Inferência Eficiente de Modelos de Transformadores em Escala Sem Precedentes. arXiv:2207.00032 e SC 2022. [artigo] [slides] [blog]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He. (2022) Random-LTD: A eliminação aleatória e em camadas de token traz treinamento eficiente para transformadores em grande escala. arXiv:2211.11586.
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He. (2022) DeepSpeed Data Efficiency: Melhorando a qualidade do modelo de aprendizagem profunda e a eficiência do treinamento por meio de amostragem e roteamento eficiente de dados. arXiv:2212.03597 ENLSP2023 Workshop em NeurIPS2023
Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He. (2023) Compreendendo a quantização INT4 para modelos de transformadores: aceleração de latência, capacidade de composição e casos de falha. arXiv:2301.12017 e ICML2023.
Syed Zawad, Cheng Li, Zhewei Yao, Elton Zheng, Yuxiong He, Feng Yan. (2023) DySR: Super-resolução adaptativa via algoritmo e co-design de sistema. ICLR:2023.
Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He. (2023) Dimensionando modelos de visão-linguagem com mistura esparsa de especialistas. arXiv:2303.07226 e descoberta em EMNLP2023.
Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda. (2023) MCR-DL: Mix-and-Match Communication Runtime for Deep Learning arXiv:2303.08374 e aparecerá no IPDPS 2023.
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele. (2023) Uma abordagem híbrida de paralelismo de dados de tensor-especialista para otimizar o treinamento de mistura de especialistas arXiv:2303.06318 e aparecerá no ICS 2023.
Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Xiaoxia Wu, Connor Holmes, Zhewei Yao, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He. (2023) ZeRO++: Comunicação coletiva extremamente eficiente para treinamento de modelos gigantes arXiv:2306.10209 e ML para Sys Workshop em NeurIPS2023 [blog]
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He. (2023) ZeroQuant-V2: Explorando a quantização pós-treinamento em LLMs, desde o estudo abrangente até a compensação de baixa classificação arXiv:2303.08302 e workshop ENLSP2023 no NeurIPS2023 [slides]
Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He. (2023) Orientação seletiva: todas as etapas de eliminação de ruído da difusão guiada são importantes? arXiv:2305.09847
Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He. (2023) DeepSpeed-Chat: Treinamento RLHF fácil, rápido e acessível de modelos semelhantes a ChatGPT em todas as escalas arXiv:2308.01320.
Xiaoxia Wu, Zhewei Yao, Yuxiong He. (2023) ZeroQuant-FP: Um salto adiante em LLMs Pós-treinamento Quantização W4A8 usando formatos de ponto flutuante arXiv:2307.09782 e ENLSP2023 Workshop em NeurIPS2023 [slides]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. (2023) DeepSpeed-VisualChat: bate-papo multi-redondo e intercalado com múltiplas imagens via atenção causal multimodal arXiv:2309.14327
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He, e outros. (2023) Iniciativa DeepSpeed4Science: Habilitando a descoberta científica em grande escala por meio de tecnologias sofisticadas de sistemas de IA arXiv:2310.04610 [blog]
Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He. (2023) ZeroQuant-HERO: Estrutura de quantização pós-treinamento robusta, otimizada e aprimorada por hardware para transformadores W8A8 arXiv:2310.17723
Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Reza Yazdani Aminabadi, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao (2023) ZeroQuant(4+2): Redefinindo a quantização de LLMs com uma nova estratégia centrada no 6.º PQ para diversas tarefas geradoras arXiv:2312.08583
Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song. (2024) FP6-LLM: Servindo com eficiência grandes modelos de linguagem por meio de co-design de sistema de algoritmo centrado em FP6 arXiv:2401.14112
Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Reza Yazdani Aminadabi, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He. (2024) Otimizações de sistema para permitir o treinamento de modelos de transformadores de sequência extremamente longa
Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang. (2024) Checkpointing universal: Checkpointing eficiente e flexível para treinamento distribuído em grande escala arXiv:2406.18820