Cara tercepat untuk memulai DeepSpeed adalah melalui pip, ini akan menginstal rilis terbaru DeepSpeed yang tidak terikat dengan versi PyTorch atau CUDA tertentu. DeepSpeed menyertakan beberapa ekstensi C++/CUDA yang biasa kami sebut sebagai 'operasi'. Secara default, semua ekstensi/operasi ini akan dibuat just-in-time (JIT) menggunakan pemuat ekstensi JIT C++ torch yang mengandalkan ninja untuk membangun dan menghubungkannya secara dinamis saat runtime.
Penyumbang | Perangkat keras | Nama Akselerator | Kontributor divalidasi | Divalidasi hulu |
---|---|---|---|---|
Huawei | Huawei Ascend NPU | npu | Ya | TIDAK |
Intel | Akselerator AI Intel(R) Gaudi(R) 2 | hpu | Ya | Ya |
Intel | Prosesor Intel(R) Xeon(R). | CPU | Ya | Ya |
Intel | Seri GPU Pusat Data Intel(R) Max | xpu | Ya | Ya |
Kami secara teratur mendorong rilis ke PyPI dan mendorong pengguna untuk menginstal dari sana dalam banyak kasus.
pip install deepspeed
Setelah instalasi, Anda dapat memvalidasi instalasi Anda dan melihat ekstensi/operasi mana yang kompatibel dengan mesin Anda melalui laporan lingkungan DeepSpeed.
ds_report
Jika Anda ingin melakukan pra-instal ekstensi/operasi DeepSpeed apa pun (bukan kompilasi JIT) atau menginstal operasi yang telah dikompilasi sebelumnya melalui PyPI, silakan lihat petunjuk instalasi lanjutan kami.
Dukungan Windows sebagian didukung dengan DeepSpeed. Di Windows Anda dapat membuat roda dengan langkah-langkah berikut, saat ini hanya mode inferensi yang didukung.
python setup.py bdist_wheel
untuk membuat roda di folder dist
Silakan periksa halaman DeepSpeed-Training, DeepSpeed-Inference, dan DeepSpeed-Compression untuk mengetahui serangkaian fitur lengkap yang ditawarkan di masing-masing ketiga pilar ini.
Semua dokumentasi, tutorial, dan blog DeepSpeed dapat ditemukan di situs web kami: deepspeed.ai
Keterangan | |
---|---|
Memulai | Langkah pertama dengan DeepSpeed |
Konfigurasi JSON DeepSpeed | Mengonfigurasi DeepSpeed |
Dokumentasi API | Dokumentasi API DeepSpeed yang dihasilkan |
Tutorial | Tutorial |
Blog | Blog |
DeepSpeed menyambut baik kontribusi Anda! Silakan lihat panduan kontribusi kami untuk detail lebih lanjut tentang pemformatan, pengujian, dll.
Terima kasih banyak kepada semua kontributor kami yang luar biasa!
Proyek ini menyambut baik kontribusi dan saran. Sebagian besar kontribusi mengharuskan Anda menyetujui Perjanjian Lisensi Kontributor (CLA) yang menyatakan bahwa Anda berhak, dan memang benar, memberi kami hak untuk menggunakan kontribusi Anda. Untuk detailnya, kunjungi https://cla.opensource.microsoft.com.
Saat Anda mengirimkan permintaan tarik, bot CLA akan secara otomatis menentukan apakah Anda perlu memberikan CLA dan menghiasi PR dengan tepat (misalnya, pemeriksaan status, komentar). Cukup ikuti instruksi yang diberikan oleh bot. Anda hanya perlu melakukan ini sekali di seluruh repo menggunakan CLA kami.
Proyek ini telah mengadopsi Kode Etik Sumber Terbuka Microsoft. Untuk informasi lebih lanjut lihat FAQ Pedoman Perilaku atau hubungi [email protected] jika ada pertanyaan atau komentar tambahan.
Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. (2019) ZeRO: optimasi memori menuju pelatihan model triliun parameter. arXiv:1910.02054 dan Dalam Prosiding Konferensi Internasional untuk Komputasi, Jaringan, Penyimpanan dan Analisis Kinerja Tinggi (SC '20).
Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase, dan Yuxiong He. (2020) DeepSpeed: Pengoptimalan Sistem Memungkinkan Pelatihan Model Pembelajaran Mendalam dengan Lebih dari 100 Miliar Parameter. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-26 tentang Penemuan Pengetahuan & Penambangan Data (KDD '20, Tutorial).
Minjia Zhang, Yuxiong He. (2020) Percepatan Pelatihan Model Bahasa Berbasis Transformer dengan Progressive Layer Dropping. arXiv:2010.13369 dan NeurIPS 2020.
Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He. (2021) ZeRO-Offload: Mendemokratisasikan Pelatihan Model Berskala Miliar. arXiv:2101.06840 dan USENIX ATC 2021. [kertas] [slide] [blog]
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He. (2021) Adam 1-bit: Pelatihan Skala Besar yang Efisien Komunikasi dengan Kecepatan Konvergensi Adam. arXiv:2102.02888 dan ICML 2021.
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He. (2021) ZeRO-Infinity: Mendobrak Dinding Memori GPU untuk Pembelajaran Mendalam Skala Ekstrim. arXiv:2104.07857 dan SC 2021. [makalah] [slide] [blog]
Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He. (2021) LAMB 1-bit: Pelatihan Batch Besar Skala Besar yang Efisien Komunikasi dengan Kecepatan Konvergensi LAMB. arXiv:2104.06069 dan HiPC 2022.
Conglong Li, Minjia Zhang, Yuxiong He. (2021) Dilema Stabilitas-Efisiensi: Menyelidiki Pemanasan Panjang Urutan untuk Pelatihan Model GPT. arXiv:2108.06084 dan NeurIPS 2022.
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He. (2022) Memaksimalkan Efisiensi Komunikasi untuk Pelatihan Skala Besar melalui 0/1 Adam. arXiv:2202.06009.
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He. (2022) DeepSpeed-MoE: Meningkatkan Inferensi dan Pelatihan Campuran Pakar untuk Mendukung Skala AI Generasi Berikutnya arXiv:2201.05596 dan ICML 2022. [pdf] [slide] [blog]
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong Dia, Michael Houston, Saurabh Tiwary, Bryan Catanzaro. (2022) Menggunakan DeepSpeed dan Megatron untuk Melatih Megatron-Turing NLG 530B, Model Bahasa Generatif Berskala Besar arXiv:2201.11990.
Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He. (2022) Kompresi Ekstrim untuk Transformator Terlatih Menjadi Sederhana dan Efisien. arXiv:2206.01859 dan NeurIPS 2022.
Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He. (2022) ZeroQuant: Kuantisasi Pasca Pelatihan yang Efisien dan Terjangkau untuk Transformer Skala Besar. arXiv:2206.01861 dan NeurIPS 2022 [slide] [blog]
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He. (2022) Inferensi DeepSpeed: Mengaktifkan Inferensi Model Transformator yang Efisien pada Skala yang Belum Pernah Ada Sebelumnya. arXiv:2207.00032 dan SC 2022. [kertas] [slide] [blog]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He. (2022) Random-LTD: Penurunan Token Secara Acak dan Berlapis Menghadirkan Pelatihan yang Efisien untuk Transformer Skala Besar. arXiv:2211.11586.
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He. (2022) Efisiensi Data DeepSpeed: Meningkatkan Kualitas Model Pembelajaran Mendalam dan Efisiensi Pelatihan melalui Pengambilan Sampel dan Perutean Data yang Efisien. arXiv:2212.03597 Lokakarya ENLSP2023 di NeurIPS2023
Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He. (2023) Memahami Kuantisasi INT4 untuk Model Transformator: Kecepatan Latensi, Komposabilitas, dan Kasus Kegagalan. arXiv:2301.12017 dan ICML2023.
Syed Zawad, Cheng Li, Zhewei Yao, Elton Zheng, Yuxiong He, Feng Yan. (2023) DySR: Resolusi Super Adaptif melalui Desain Bersama Algoritma dan Sistem. ICLR:2023.
Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He. (2023) Menskalakan Model Bahasa Visi dengan Campuran Pakar yang Jarang. arXiv:2303.07226 dan Temuan di EMNLP2023.
Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda. (2023) MCR-DL: Mix-and-Match Communication Runtime for Deep Learning arXiv:2303.08374 dan akan muncul di IPDPS 2023.
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele. (2023) Pendekatan Paralelisme Tensor-Pakar-Data Hibrid untuk Mengoptimalkan Pelatihan Campuran Pakar arXiv:2303.06318 dan akan muncul di ICS 2023.
Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Xiaoxia Wu, Connor Holmes, Zhewei Yao, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He. (2023) ZeRO++: Komunikasi Kolektif yang Sangat Efisien untuk Pelatihan Model Raksasa arXiv:2306.10209 dan Lokakarya ML untuk Sys di NeurIPS2023 [blog]
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He. (2023) ZeroQuant-V2: Menjelajahi Kuantisasi Pasca Pelatihan di LLM dari Studi Komprehensif hingga Kompensasi Peringkat Rendah arXiv:2303.08302 dan Lokakarya ENLSP2023 di NeurIPS2023 [slide]
Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He. (2023) Panduan Selektif: Apakah Semua Langkah Menyangkal Difusi Terpandu Penting? arXiv:2305.09847
Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Lagu Shuaiwen Leon, Yuxiong He. (2023) DeepSpeed-Chat: Pelatihan RLHF yang Mudah, Cepat, dan Terjangkau untuk Model Mirip ChatGPT di Semua Skala arXiv:2308.01320.
Xiaoxia Wu, Zhewei Yao, Yuxiong He. (2023) ZeroQuant-FP: Lompatan ke Depan dalam Kuantisasi W4A8 Pasca Pelatihan LLM Menggunakan Format Floating-Point arXiv:2307.09782 dan Lokakarya ENLSP2023 di NeurIPS2023 [slide]
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. (2023) DeepSpeed-VisualChat: Obrolan Interleave Multi-Gambar Multi-Putaran melalui Perhatian Kausal Multi-Modal arXiv:2309.14327
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He, dkk. (2023) Inisiatif DeepSpeed4Science: Memungkinkan Penemuan Ilmiah Skala Besar melalui Teknologi Sistem AI yang Canggih arXiv:2310.04610 [blog]
Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He. (2023) ZeroQuant-HERO: Kerangka Kerja Kuantisasi Pasca-Pelatihan yang Dioptimalkan dan Dioptimalkan dengan Perangkat Keras untuk Transformer W8A8 arXiv:2310.17723
Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Reza Yazdani Aminabadi, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao (2023) ZeroQuant(4+2): Mendefinisikan Ulang Kuantisasi LLM dengan Strategi Baru Berpusat pada FP6 untuk Beragam Tugas Generatif arXiv:2312.08583
Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song. (2024) FP6-LLM: Melayani Model Bahasa Besar Secara Efisien Melalui Desain Bersama Sistem Algoritma Terpusat FP6 arXiv:2401.14112
Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Reza Yazdani Aminadabi, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He. (2024) Optimasi Sistem untuk Mengaktifkan Pelatihan Model Transformator Urutan Panjang Ekstrim
Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang. (2024) Pos Pemeriksaan Universal: Pos Pemeriksaan yang Efisien dan Fleksibel untuk Pelatihan Terdistribusi Skala Besar arXiv:2406.18820