Самый быстрый способ начать работу с DeepSpeed — через pip. При этом будет установлена последняя версия DeepSpeed, которая не привязана к конкретным версиям PyTorch или CUDA. DeepSpeed включает в себя несколько расширений C++/CUDA, которые мы обычно называем нашими «ops». По умолчанию все эти расширения/операции будут создаваться «точно в срок» (JIT) с использованием загрузчика расширений JIT C++ Torch, который использует ninja для создания и динамического связывания их во время выполнения.
Автор | Аппаратное обеспечение | Название ускорителя | Участник проверен | Вышестоящий проверен |
---|---|---|---|---|
Хуавей | Huawei Ascend NPU | НПУ | Да | Нет |
Интел | Intel(R) Gaudi(R) 2 ИИ-ускоритель | ХПУ | Да | Да |
Интел | Процессоры Intel(R) Xeon(R) | Процессор | Да | Да |
Интел | Серия Intel(R) GPU Max для центров обработки данных | процессор | Да | Да |
Мы регулярно размещаем выпуски в PyPI и в большинстве случаев рекомендуем пользователям устанавливать их оттуда.
pip install deepspeed
После установки вы можете проверить свою установку и посмотреть, с какими расширениями/операциями совместим ваш компьютер, с помощью отчета о среде DeepSpeed.
ds_report
Если вы хотите предварительно установить какие-либо расширения/операции DeepSpeed (вместо JIT-компиляции) или установить предварительно скомпилированные операции через PyPI, ознакомьтесь с нашими расширенными инструкциями по установке.
Поддержка Windows частично поддерживается DeepSpeed. В Windows вы можете построить колесо, выполнив следующие действия, в настоящее время поддерживается только режим вывода.
python setup.py bdist_wheel
, чтобы построить колесо в папке dist
.Пожалуйста, посетите страницы DeepSpeed-Training, DeepSpeed-Inference и DeepSpeed-Compression, чтобы увидеть полный набор функций, предлагаемых по каждому из этих трех направлений.
Всю документацию, руководства и блоги по DeepSpeed можно найти на нашем сайте: deepspeed.ai.
Описание | |
---|---|
Начиная | Первые шаги с DeepSpeed |
Конфигурация DeepSpeed JSON | Настройка ДипСпид |
API-документация | Созданная документация по API DeepSpeed. |
Учебники | Учебники |
Блоги | Блоги |
DeepSpeed приветствует ваш вклад! Более подробную информацию о форматировании, тестировании и т. д. см. в нашем руководстве по участию.
Огромное спасибо всем нашим замечательным участникам!
Этот проект приветствует вклад и предложения. Большинство вкладов требует от вас согласия с Лицензионным соглашением для авторов (CLA), в котором говорится, что вы имеете право и действительно предоставляете нам права на использование вашего вклада. Подробную информацию можно найти на странице https://cla.opensource.microsoft.com.
Когда вы отправляете запрос на включение, бот CLA автоматически определяет, нужно ли вам предоставить CLA, и соответствующим образом оформляет PR (например, проверку статуса, комментарий). Просто следуйте инструкциям бота. Вам нужно будет сделать это только один раз во всех репозиториях, используя наш CLA.
В этом проекте принят Кодекс поведения Microsoft с открытым исходным кодом. Для получения дополнительной информации см. часто задаваемые вопросы о Кодексе поведения или свяжитесь с нами по адресу [email protected], если у вас возникнут дополнительные вопросы или комментарии.
Самьям Раджбхандари, Джефф Рэсли, Олатунджи Рувасе, Юсюн Хэ. (2019) ZeRO: оптимизация памяти для обучения моделей с триллионом параметров. arXiv:1910.02054 и в материалах Международной конференции по высокопроизводительным вычислениям, сетям, хранению и анализу (SC '20).
Джефф Рэсли, Самьям Раджбхандари, Олатунджи Рувасе и Юсюн Хэ. (2020) DeepSpeed: оптимизация системы позволяет обучать модели глубокого обучения с более чем 100 миллиардами параметров. В материалах 26-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD '20, Учебное пособие).
Минцзя Чжан, Юйсюн Хэ. (2020) Ускорение обучения языковых моделей на основе преобразователей с прогрессивным удалением слоев. arXiv:2010.13369 и NeurIPS 2020.
Цзе Рен, Самьям Раджбхандари, Реза Яздани Аминабади, Олатунджи Рувасе, Шуангян Ян, Минцзя Чжан, Донг Ли, Юсюн Хэ. (2021) ZeRO-Offload: демократизация обучения моделей миллиардного масштаба. arXiv:2101.06840 и USENIX ATC 2021. [бумага] [слайды] [блог]
Ханлинь Тан, Шаодуо Ган, Аммар Ахмад Аван, Самьям Раджбхандари, Цунлун Ли, Сянру Лиан, Цзи Лю, Се Чжан, Юйсюн Хэ. (2021) 1-битный Адам: эффективное крупномасштабное обучение со скоростью сходимости Адама. arXiv:2102.02888 и ICML 2021.
Самьям Раджбхандари, Олатунджи Рувасе, Джефф Рэсли, Шейден Смит, Юсюн Хе. (2021) ZeRO-Infinity: разрушая стену памяти графического процессора для глубокого обучения экстремальных масштабов. arXiv:2104.07857 и SC 2021. [бумага] [слайды] [блог]
Конглон Ли, Аммар Ахмад Аван, Ханлинь Тан, Самьям Раджбхандари, Юсюн Хэ. (2021) 1-bit LAMB: эффективное крупномасштабное групповое обучение со скоростью конвергенции LAMB. arXiv:2104.06069 и HiPC 2022.
Цунлун Ли, Миньцзя Чжан, Юйсюн Хэ. (2021) Дилемма стабильности-эффективности: исследование прогрева длины последовательности для обучения моделей GPT. arXiv:2108.06084 и NeurIPS 2022.
Юйчэн Лу, Цунлун Ли, Минцзя Чжан, Кристофер Де Са, Юйсюн Хэ. (2022) Максимизация эффективности коммуникации для крупномасштабного обучения с помощью Адама 0/1. arXiv:2202.06009.
Самьям Раджбхандари, Конглонг Ли, Чжевэй Яо, Миньцзя Чжан, Реза Яздани Аминабади, Аммар Ахмад Аван, Джефф Рэсли, Юсюн Хэ. (2022) DeepSpeed-MoE: Развитие умозаключений и обучения специалистов для создания масштабов искусственного интеллекта следующего поколения arXiv:2201.05596 и ICML 2022. [pdf] [слайды] [блог]
Шейден Смит, Мостофа Патвари, Брэндон Норик, Патрик ЛеГресли, Самьям Раджбхандари, Джаред Каспер, Чжун Лю, Шримаи Прабхумойе, Джордж Зервеас, Виджай Кортиканти, Элтон Чжан, Ревон Чайлд, Реза Яздани Аминабади, Джули Бернауэр, Ся Сун, Мохаммад Шойби, Юсюн Он, Майкл Хьюстон, Саураб Тивари, Брайан Катандзаро. (2022) Использование DeepSpeed и Megatron для обучения Megatron-Turing NLG 530B, крупномасштабной модели генеративного языка arXiv:2201.11990.
Сяося Ву, Чжэвэй Яо, Миньцзя Чжан, Цунлун Ли, Юйсюн Хэ. (2022) Экстремальное сжатие для предварительно обученных трансформаторов стало простым и эффективным. arXiv:2206.01859 и NeurIPS 2022.
Чжэвэй Яо, Реза Яздани Аминабади, Миньцзя Чжан, Сяося Ву, Цунлун Ли, Юйсюн Хэ. (2022) ZeroQuant: эффективное и доступное квантование после обучения для крупномасштабных трансформаторов. arXiv:2206.01861 и NeurIPS 2022 [слайды] [блог]
Реза Яздани Аминабади, Самьям Раджбхандари, Миньцзя Чжан, Аммар Ахмад Аван, Ченг Ли, Ду Ли, Элтон Чжэн, Джефф Рэсли, Шейден Смит, Олатунджи Рувасе, Юсюн Хэ. (2022) DeepSpeed Inference: обеспечение эффективного вывода моделей трансформаторов в беспрецедентном масштабе. arXiv:2207.00032 и SC 2022. [бумага] [слайды] [блог]
Чжэвэй Яо, Сяося Ву, Цунлун Ли, Коннор Холмс, Миньцзя Чжан, Чэн Ли, Юйсюн Хэ. (2022) Random-LTD: случайное и послойное удаление токенов обеспечивает эффективное обучение крупномасштабных преобразователей. arXiv: 2211.11586.
Цунлун Ли, Чжэвэй Яо, Сяося Ву, Миньцзя Чжан, Юйсюн Хэ. (2022) Эффективность данных DeepSpeed: улучшение качества модели глубокого обучения и эффективности обучения за счет эффективной выборки и маршрутизации данных. arXiv:2212.03597 Семинар ENLSP2023 на NeurIPS2023
Сяося Ву, Чэн Ли, Реза Яздани Аминабади, Чжэвэй Яо, Юйсюн Хэ. (2023) Понимание квантования INT4 для моделей трансформаторов: увеличение задержки, компоновка и случаи сбоя. arXiv:2301.12017 и ICML2023.
Сайед Завад, Ченг Ли, Чжэвэй Яо, Элтон Чжэн, Юйсюн Хэ, Фэн Янь. (2023) DySR: Адаптивное сверхразрешение посредством совместного проектирования алгоритмов и систем. ИКЛР: 2023.
Шэн Шен, Чжэвэй Яо, Чуньюань Ли, Тревор Даррелл, Курт Койцер, Юйсюн Хэ. (2023) Масштабирование моделей визуального языка с небольшим количеством экспертов. arXiv:2303.07226 и обнаружение на EMNLP2023.
Квентин Энтони, Аммар Ахмад Аван, Джефф Рэсли, Юсюн Хе, Аамир Шафи, Мустафа Абдулджаббар, Хари Субрамони, Дхабалешвар Панда. (2023) MCR-DL: Среда выполнения коммутации и сопоставления для глубокого обучения arXiv:2303.08374 и появится на IPDPS 2023.
Сиддхарт Сингх, Олатунджи Рувасе, Аммар Ахмад Аван, Самьям Раджбхандари, Юсюн Хе, Абхинав Бхателе. (2023) Гибридный подход к параллелизму тензорных, экспертных и данных для оптимизации обучения смешанных экспертов arXiv:2303.06318 и будет представлен на выставке ICS 2023.
Гуаньхуа Ван, Хэян Цинь, Сэм Аде Джейкобс, Сяося Ву, Коннор Холмс, Чжэвей Яо, Самьям Раджбхандари, Олатунджи Рувасе, Фэн Ян, Лэй Ян, Юйсюн Хэ. (2023) ZeRO++: Чрезвычайно эффективная коллективная коммуникация для обучения гигантских моделей arXiv:2306.10209 и семинар по машинному обучению для Sys на NeurIPS2023 [блог]
Чжэвэй Яо, Сяося Ву, Чэн Ли, Стивен Юн, Юйсюн Хэ. (2023) ZeroQuant-V2: Изучение квантования после обучения в LLM от комплексного исследования до компенсации низкого ранга arXiv: 2303.08302 и семинара ENLSP2023 на NeurIPS2023 [слайды]
Париса Амене Голнари, Чжевэй Яо, Юйсюн Хэ. (2023) Выборочное руководство: важны ли все этапы шумоподавления управляемой диффузии? arXiv:2305.09847
Чжэвей Яо, Реза Яздани Аминабади, Олатунджи Рувасе, Самьям Раджбхандари, Сяося Ву, Аммар Ахмад Аван, Джефф Рэсли, Минцзя Чжан, Конлун Ли, Коннор Холмс, Чжунчжу Чжоу, Майкл Вятт, Молли Смит, Лев Куриленко, Хэян Цинь, Масахиро Танака, Шуай Че, Шуайвэнь Леон Сун, Юйсюн Он. (2023) DeepSpeed-Chat: простое, быстрое и доступное RLHF-обучение ChatGPT-подобных моделей во всех масштабах arXiv:2308.01320.
Сяося Ву, Чжэвэй Яо, Юйсюн Хэ. (2023) ZeroQuant-FP: скачок вперед в LLM Квантование W4A8 после обучения с использованием форматов с плавающей запятой arXiv: 2307.09782 и семинар ENLSP2023 на NeurIPS2023 [слайды]
Чжэвэй Яо, Сяося Ву, Цунлун Ли, Миньцзя Чжан, Хэян Цинь, Олатунджи Рувасе, Аммар Ахмад Аван, Самьям Раджбхандари, Юсюн Хэ. (2023) DeepSpeed-VisualChat: многораундовый чат с чередованием нескольких изображений с помощью мультимодального причинного внимания arXiv: 2309.14327
Шуайвэнь Леон Сонг, Бонни Круфт, Минцзя Чжан, Конглон Ли, Шиян Чен, Чэнмин Чжан, Масахиро Танака, Сяося Ву, Джефф Рэсли, Аммар Ахмад Аван, Коннор Холмс, Мартин Цай, Адам Ганем, Чжунчжу Чжоу, Юсюн Хэ и др. (2023) Инициатива DeepSpeed4Science: обеспечение крупномасштабных научных открытий с помощью сложных системных технологий искусственного интеллекта arXiv:2310.04610 [блог]
Чжэвей Яо, Реза Яздани Аминабади, Стивен Юн, Сяося Ву, Элтон Чжэн, Юйсюн Хэ. (2023) ZeroQuant-HERO: надежная оптимизированная аппаратная платформа квантования после обучения для трансформаторов W8A8 arXiv:2310.17723
Сяося Ву, Хаоцзюнь Ся, Стивен Юн, Чжэнь Чжэн, Шиянг Чен, Араш Бахтиари, Майкл Вятт, Реза Яздани Аминабади, Юсюн Хэ, Олатунджи Рувасе, Леон Сонг, Чжэвэй Яо (2023) ZeroQuant(4+2): новое определение квантования LLM с помощью Новая стратегия, ориентированная на FP6, для разнообразных генеративных задач arXiv:2312.08583
Хаоцзюнь Ся, Чжэнь Чжэн, Сяося Ву, Шиян Чен, Чжевэй Яо, Стивен Юн, Араш Бахтиари, Майкл Вятт, Дунлин Чжуан, Чжунчжу Чжоу, Олатунджи Рувасе, Юсюн Хэ, Шуайвэнь Леон Сонг. (2024) FP6-LLM: эффективное обслуживание больших языковых моделей посредством совместного проектирования алгоритмов и систем, ориентированных на FP6 arXiv:2401.14112
Сэм Аде Джейкобс, Масахиро Танака, Чэнмин Чжан, Минцзя Чжан, Реза Яздани Аминадаби, Шуайвэнь Леон Сонг, Самьям Раджбхандари, Юсюн Хэ. (2024) Оптимизация системы для обеспечения обучения моделей трансформаторов чрезвычайно длинной последовательности
Синью Лиан, Сэм Аде Джейкобс, Лев Куриленко, Масахиро Танака, Стас Бекман, Олатунджи Рувасе, Минцзя Чжан. (2024) Универсальная контрольная точка: эффективная и гибкая контрольная точка для крупномасштабного распределенного обучения arXiv:2406.18820