La forma más rápida de comenzar con DeepSpeed es a través de pip, esto instalará la última versión de DeepSpeed que no está vinculada a versiones específicas de PyTorch o CUDA. DeepSpeed incluye varias extensiones de C++/CUDA a las que comúnmente nos referimos como nuestras "operaciones". De forma predeterminada, todas estas extensiones/operaciones se crearán justo a tiempo (JIT) utilizando el cargador de extensiones JIT C++ de torch que depende de ninja para compilarlas y vincularlas dinámicamente en tiempo de ejecución.
Contribuyente | Hardware | Nombre del acelerador | Colaborador validado | Validado en sentido ascendente |
---|---|---|---|---|
Huawei | Huawei Ascend NPU | npu | Sí | No |
Intel | Acelerador de IA Intel(R) Gaudi(R) 2 | hpu | Sí | Sí |
Intel | Procesadores Intel(R) Xeon(R) | UPC | Sí | Sí |
Intel | Serie Intel(R) GPU Max para centros de datos | xpu | Sí | Sí |
Regularmente enviamos lanzamientos a PyPI y alentamos a los usuarios a instalar desde allí en la mayoría de los casos.
pip install deepspeed
Después de la instalación, puede validar su instalación y ver con qué extensiones/operaciones es compatible su máquina a través del informe del entorno de DeepSpeed.
ds_report
Si desea preinstalar cualquiera de las extensiones/operaciones de DeepSpeed (en lugar de la compilación JIT) o instalar operaciones precompiladas a través de PyPI, consulte nuestras instrucciones de instalación avanzada.
La compatibilidad con Windows es parcialmente compatible con DeepSpeed. En Windows puedes construir una rueda con los siguientes pasos; actualmente solo se admite el modo de inferencia.
python setup.py bdist_wheel
para crear una rueda en la carpeta dist
Consulte las páginas DeepSpeed-Training, DeepSpeed-Inference y DeepSpeed-Compression para conocer el conjunto completo de funciones que se ofrecen en cada uno de estos tres pilares.
Toda la documentación, tutoriales y blogs de DeepSpeed se pueden encontrar en nuestro sitio web: deepspeed.ai
Descripción | |
---|---|
Empezando | Primeros pasos con DeepSpeed |
Configuración JSON de velocidad profunda | Configurando velocidad profunda |
Documentación API | Documentación de API de DeepSpeed generada |
Tutoriales | Tutoriales |
Blogs | Blogs |
¡DeepSpeed agradece sus contribuciones! Consulte nuestra guía de contribución para obtener más detalles sobre formato, pruebas, etc.
¡Muchas gracias a todos nuestros increíbles contribuyentes!
Este proyecto agradece contribuciones y sugerencias. La mayoría de las contribuciones requieren que usted acepte un Acuerdo de licencia de colaborador (CLA) que declara que tiene derecho a otorgarnos, y de hecho lo hace, los derechos para usar su contribución. Para obtener más detalles, visite https://cla.opensource.microsoft.com.
Cuando envía una solicitud de extracción, un bot CLA determinará automáticamente si necesita proporcionar un CLA y decorar el PR de manera adecuada (por ejemplo, verificación de estado, comentario). Simplemente siga las instrucciones proporcionadas por el bot. Solo necesitarás hacer esto una vez en todos los repositorios que utilicen nuestro CLA.
Este proyecto ha adoptado el Código de conducta de código abierto de Microsoft. Para obtener más información, consulte las preguntas frecuentes sobre el Código de conducta o comuníquese con [email protected] si tiene alguna pregunta o comentario adicional.
Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. (2019) ZeRO: optimizaciones de memoria para entrenar billones de modelos de parámetros. arXiv:1910.02054 y en las actas de la Conferencia internacional sobre informática, redes, almacenamiento y análisis de alto rendimiento (SC '20).
Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase y Yuxiong He. (2020) DeepSpeed: las optimizaciones del sistema permiten entrenar modelos de aprendizaje profundo con más de 100 mil millones de parámetros. En actas de la 26ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos (KDD '20, Tutorial).
Minjia Zhang, Yuxiong He. (2020) Aceleración del entrenamiento de modelos de lenguaje basados en transformadores con caída progresiva de capas. arXiv:2010.13369 y NeurIPS 2020.
Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He. (2021) ZeRO-Offload: democratización de la formación en modelos a escala de miles de millones. arXiv:2101.06840 y USENIX ATC 2021. [artículo] [diapositivas] [blog]
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He. (2021) Adam de 1 bit: entrenamiento a gran escala en comunicación eficiente con la velocidad de convergencia de Adam. arXiv:2102.02888 y ICML 2021.
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He. (2021) ZeRO-Infinity: Rompiendo el muro de la memoria de la GPU para un aprendizaje profundo a escala extrema. arXiv:2104.07857 y SC 2021. [artículo] [diapositivas] [blog]
Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He. (2021) LAMB de 1 bit: capacitación en comunicación eficiente a gran escala y en lotes grandes con la velocidad de convergencia de LAMB. arXiv:2104.06069 y HiPC 2022.
Conglong Li, Minjia Zhang, Yuxiong He. (2021) El dilema estabilidad-eficiencia: investigación del calentamiento de la duración de la secuencia para entrenar modelos GPT. arXiv:2108.06084 y NeurIPS 2022.
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He. (2022) Maximizar la eficiencia de la comunicación para la capacitación a gran escala a través de 0/1 Adam. arXiv:2202.06009.
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He. (2022) DeepSpeed-MoE: avance de la inferencia y la capacitación de una combinación de expertos para impulsar la escala de IA de próxima generación arXiv:2201.05596 e ICML 2022. [pdf] [diapositivas] [blog]
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong Él, Michael Houston, Saurabh Tiwary, Bryan Catanzaro. (2022) Uso de DeepSpeed y Megatron para entrenar Megatron-Turing NLG 530B, un modelo de lenguaje generativo a gran escala arXiv:2201.11990.
Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He. (2022) Compresión extrema para transformadores previamente entrenados de forma sencilla y eficiente. arXiv:2206.01859 y NeurIPS 2022.
Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He. (2022) ZeroQuant: Cuantización posterior al entrenamiento eficiente y asequible para transformadores a gran escala. arXiv:2206.01861 y NeurIPS 2022 [diapositivas] [blog]
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He. (2022) Inferencia DeepSpeed: permitir la inferencia eficiente de modelos de transformadores a una escala sin precedentes. arXiv:2207.00032 y SC 2022. [artículo] [diapositivas] [blog]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He. (2022) Random-LTD: la caída de tokens aleatoria y por capas brinda una capacitación eficiente para transformadores a gran escala. arXiv:2211.11586.
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He. (2022) Eficiencia de datos de DeepSpeed: mejora de la calidad del modelo de aprendizaje profundo y la eficiencia de la capacitación mediante un muestreo y enrutamiento de datos eficientes. arXiv:2212.03597 Taller ENLSP2023 en NeurIPS2023
Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He. (2023) Comprensión de la cuantificación INT4 para modelos de transformadores: aceleración de latencia, componibilidad y casos de falla. arXiv:2301.12017 y ICML2023.
Syed Zawad, Cheng Li, Zhewei Yao, Elton Zheng, Yuxiong He, Feng Yan. (2023) DySR: superresolución adaptativa mediante algoritmo y codiseño del sistema. ICLR:2023.
Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He. (2023) Ampliación de modelos de visión y lenguaje con una escasa combinación de expertos. arXiv:2303.07226 y Hallazgo en EMNLP2023.
Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda. (2023) MCR-DL: Mix-and-Match Communication Runtime para Deep Learning arXiv:2303.08374 y aparecerá en IPDPS 2023.
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele. (2023) Un enfoque híbrido de paralelismo de datos de tensor-experto para optimizar la capacitación de una combinación de expertos arXiv:2303.06318 y aparecerá en ICS 2023.
Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Xiaoxia Wu, Connor Holmes, Zhewei Yao, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He. (2023) ZeRO++: Comunicación colectiva extremadamente eficiente para el entrenamiento de modelos gigantes arXiv:2306.10209 y el taller ML for Sys en NeurIPS2023 [blog]
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He. (2023) ZeroQuant-V2: Exploración de la cuantificación posterior a la capacitación en LLM desde un estudio integral hasta una compensación de rango bajo arXiv:2303.08302 y el taller ENLSP2023 en NeurIPS2023 [diapositivas]
Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He. (2023) Orientación selectiva: ¿Son importantes todos los pasos de eliminación de ruido de la difusión guiada? arXiv:2305.09847
Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He. (2023) DeepSpeed-Chat: entrenamiento RLHF fácil, rápido y asequible de modelos similares a ChatGPT en todas las escalas arXiv:2308.01320.
Xiaoxia Wu, Zhewei Yao, Yuxiong He. (2023) ZeroQuant-FP: un salto adelante en la cuantificación W4A8 posterior a la capacitación de LLM utilizando formatos de punto flotante arXiv:2307.09782 y el taller ENLSP2023 en NeurIPS2023 [diapositivas]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. (2023) DeepSpeed-VisualChat: chat entrelazado de múltiples imágenes y rondas múltiples mediante atención causal multimodal arXiv:2309.14327
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He, et al. (2023) Iniciativa DeepSpeed4Science: permitir el descubrimiento científico a gran escala a través de tecnologías sofisticadas de sistemas de inteligencia artificial arXiv:2310.04610 [blog]
Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He. (2023) ZeroQuant-HERO: Marco de cuantificación posterior al entrenamiento, robusto, optimizado y mejorado por hardware para transformadores W8A8 arXiv:2310.17723
Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Reza Yazdani Aminabadi, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao (2023) ZeroQuant(4+2): Redefinición de la cuantificación de LLM con una nueva estrategia centrada en el VI PM para diversas tareas generativas arXiv:2312.08583
Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song. (2024) FP6-LLM: Servicio eficiente de modelos de lenguajes grandes a través del codiseño de sistemas de algoritmos centrados en el FP6 arXiv:2401.14112
Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Reza Yazdani Aminadabi, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He. (2024) Optimizaciones del sistema para permitir el entrenamiento de modelos de transformadores de secuencia extremadamente larga
Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang. (2024) Puntos de control universales: puntos de control eficientes y flexibles para capacitación distribuida a gran escala arXiv:2406.18820