วิธีที่เร็วที่สุดในการเริ่มต้นใช้งาน DeepSpeed คือผ่าน pip ซึ่งจะติดตั้ง DeepSpeed รุ่นล่าสุดซึ่งไม่ได้เชื่อมโยงกับ PyTorch หรือ CUDA เวอร์ชันใดเวอร์ชันหนึ่งโดยเฉพาะ DeepSpeed มีส่วนขยาย C++/CUDA หลายตัวที่เรามักเรียกว่า 'ops' ของเรา ตามค่าเริ่มต้น ส่วนขยาย/การดำเนินการทั้งหมดเหล่านี้จะถูกสร้างขึ้นแบบทันเวลา (JIT) โดยใช้ตัวโหลดส่วนขยาย JIT C++ ของ Torch ที่ต้องอาศัย Ninja ในการสร้างและเชื่อมโยงส่วนขยายเหล่านั้นในขณะรันไทม์
ผู้ร่วมให้ข้อมูล | ฮาร์ดแวร์ | ชื่อตัวเร่งความเร็ว | ตรวจสอบผู้ร่วมให้ข้อมูลแล้ว | ตรวจสอบต้นน้ำแล้ว |
---|---|---|---|---|
หัวเว่ย | หัวเว่ย แอสเซนด์ NPU | npu | ใช่ | เลขที่ |
อินเทล | ตัวเร่งความเร็ว AI ของ Intel(R) Gaudi(R) 2 | แรงม้าพียู | ใช่ | ใช่ |
อินเทล | โปรเซสเซอร์ Intel(R) Xeon(R) | ซีพียู | ใช่ | ใช่ |
อินเทล | ซีรีส์ Intel(R) Data Center GPU Max | xpu | ใช่ | ใช่ |
เราเผยแพร่ไปยัง PyPI เป็นประจำ และสนับสนุนให้ผู้ใช้ติดตั้งจากที่นั่นในกรณีส่วนใหญ่
pip install deepspeed
หลังการติดตั้ง คุณสามารถตรวจสอบการติดตั้งของคุณและดูว่าส่วนขยาย/การดำเนินการใดที่เครื่องของคุณเข้ากันได้ผ่านรายงานสภาพแวดล้อม DeepSpeed
ds_report
หากคุณต้องการติดตั้งส่วนขยาย/ops DeepSpeed ใดๆ ล่วงหน้า (แทนการคอมไพล์ JIT) หรือติดตั้ง ops ที่คอมไพล์ล่วงหน้าผ่าน PyPI โปรดดูคำแนะนำการติดตั้งขั้นสูงของเรา
รองรับ Windows บางส่วนด้วย DeepSpeed บน Windows คุณสามารถสร้างวงล้อได้โดยทำตามขั้นตอนต่อไปนี้ ปัจจุบันรองรับเฉพาะโหมดการอนุมานเท่านั้น
python setup.py bdist_wheel
เพื่อสร้าง wheel ในโฟลเดอร์ dist
โปรดตรวจสอบหน้า DeepSpeed-Training, DeepSpeed-Inference และ DeepSpeed-Compression เพื่อดูชุดคุณสมบัติทั้งหมดที่นำเสนอในแต่ละเสาหลักทั้งสามนี้
เอกสาร บทช่วยสอน และบล็อกของ DeepSpeed ทั้งหมดสามารถพบได้บนเว็บไซต์ของเรา: deepspeed.ai
คำอธิบาย | |
---|---|
เริ่มต้นใช้งาน | ก้าวแรกกับ DeepSpeed |
การกำหนดค่า DeepSpeed JSON | การกำหนดค่า DeepSpeed |
เอกสาร API | เอกสารประกอบ DeepSpeed API ที่สร้างขึ้น |
บทช่วยสอน | บทช่วยสอน |
บล็อก | บล็อก |
DeepSpeed ยินดีต้อนรับการมีส่วนร่วมของคุณ! โปรดดูคู่มือการมีส่วนร่วมของเราสำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการจัดรูปแบบ การทดสอบ ฯลฯ
ขอบคุณมากสำหรับผู้มีส่วนร่วมที่น่าทึ่งของเราทุกคน!
โครงการนี้ยินดีรับการสนับสนุนและข้อเสนอแนะ การบริจาคส่วนใหญ่กำหนดให้คุณยอมรับข้อตกลงใบอนุญาตผู้ร่วมให้ข้อมูล (CLA) โดยประกาศว่าคุณมีสิทธิ์ที่จะให้สิทธิ์แก่เราในการใช้การบริจาคของคุณจริงๆ สำหรับรายละเอียด โปรดไปที่ https://cla.opensource.microsoft.com
เมื่อคุณส่งคำขอดึง บอท CLA จะกำหนดโดยอัตโนมัติว่าคุณจำเป็นต้องจัดเตรียม CLA และตกแต่ง PR อย่างเหมาะสมหรือไม่ (เช่น การตรวจสอบสถานะ ความคิดเห็น) เพียงทำตามคำแนะนำที่ได้รับจากบอท คุณจะต้องทำสิ่งนี้เพียงครั้งเดียวกับ repos ทั้งหมดโดยใช้ CLA ของเรา
โครงการนี้ได้นำหลักจรรยาบรรณของ Microsoft Open Source มาใช้ สำหรับข้อมูลเพิ่มเติม โปรดดูคำถามที่พบบ่อยเกี่ยวกับจรรยาบรรณหรือติดต่อ [email protected] หากมีคำถามหรือความคิดเห็นเพิ่มเติม
ซัมยัม ราชบันดาริ, เจฟฟ์ ราสลีย์, โอลาตุนจิ รูวาเสะ, หยูเชียง เหอ (2019) ZeRO: การเพิ่มประสิทธิภาพหน่วยความจำเพื่อฝึกฝนโมเดลพารามิเตอร์ล้านล้าน arXiv:1910.02054 และในการดำเนินการของการประชุมนานาชาติสำหรับคอมพิวเตอร์ เครือข่าย การจัดเก็บ และการวิเคราะห์ประสิทธิภาพสูง (SC '20)
เจฟฟ์ ราสลีย์, ซัมยัม ราชพันดารี, โอลาตุนจิ รูวาเสะ และ หยูเชียง เหอ (2020) DeepSpeed: การเพิ่มประสิทธิภาพระบบช่วยให้สามารถฝึกอบรมโมเดลการเรียนรู้เชิงลึกด้วยพารามิเตอร์มากกว่า 100 พันล้านพารามิเตอร์ ในการดำเนินการประชุมนานาชาติ ACM SIGKDD เรื่องการค้นพบความรู้และการขุดข้อมูล ครั้งที่ 26 (KDD '20, บทช่วยสอน)
หมินเจีย จาง, หยู่เซียง เหอ (2020) เร่งการฝึกอบรมโมเดลภาษาที่ใช้ Transformer ด้วยการลดเลเยอร์แบบก้าวหน้า arXiv:2010.13369 และ NeurIPS 2020
เจีย เหริน, ซัมยัม ราชพันดารี, เรซา ยาซดานี อมินาบาดี, โอลาตุนจี รูวาเซะ, ชวงเอี้ยน หยาง, มินเจีย จาง, ตง ลี่, หยู่เซียง เหอ (2021) ZeRO-Offload: การทำให้การฝึกอบรมโมเดลระดับพันล้านกลายเป็นประชาธิปไตย arXiv:2101.06840 และ USENIX ATC 2021 [กระดาษ] [สไลด์] [บล็อก]
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He (2021) Adam 1 บิต: การฝึกอบรมขนาดใหญ่ที่มีประสิทธิภาพในการสื่อสารพร้อมความเร็วการบรรจบกันของ Adam arXiv:2102.02888 และ ICML 2021
ซัมยัม ราชบันดารี, โอลาตุนจิ รูวาเสะ, เจฟฟ์ ราสลีย์, ชาเดน สมิธ, หยูเชียง เหอ (2021) ZeRO-Infinity: ทลายกำแพงหน่วยความจำ GPU เพื่อการเรียนรู้เชิงลึกในระดับสูงสุด arXiv:2104.07857 และ SC 2021. [กระดาษ] [สไลด์] [บล็อก]
คองหลง ลี, อัมมาร์ อาหมัด อาวาน, ฮันลิน ถัง, ซัมยัม ราชบันดารี, หยูเชียง เหอ (2021) LAMB 1 บิต: การฝึกอบรมชุดใหญ่ขนาดใหญ่ที่มีประสิทธิภาพในการสื่อสารพร้อมความเร็วในการบรรจบกันของ LAMB arXiv:2104.06069 และ HiPC 2022
Conglong Li, Minjia Zhang, Yuxiong He (2021) ภาวะที่กลืนไม่เข้าคายไม่ออกด้านความเสถียรและประสิทธิภาพ: การตรวจสอบการวอร์มอัพความยาวตามลำดับสำหรับการฝึกอบรมโมเดล GPT arXiv:2108.06084 และ NeurIPS 2022
หยูเฉิง หลู, ฉงหลง หลี่, หมินเจีย จาง, คริสโตเฟอร์ เดอ ซา, หยู่เซียง เหอ (2022) การเพิ่มประสิทธิภาพการสื่อสารให้สูงสุดสำหรับการฝึกอบรมขนาดใหญ่ผ่าน 0/1 Adam arXiv:2202.06009.
ซัมยัม ราชบันดารี, คองหลง ลี, เจ้อเว่ย เหยา, มินเจีย จาง, เรซา ยัซดานี อมินาบาดี, อัมมาร์ อาห์หมัด อาวาน, เจฟฟ์ ราสลีย์, หยูเชียง เหอ (2022) DeepSpeed-MoE: การอนุมานและการฝึกอบรมแบบผสมผสานของผู้เชี่ยวชาญที่ล้ำหน้าเพื่อขับเคลื่อนมาตราส่วน AI ยุคถัดไป arXiv:2201.05596 และ ICML 2022 [pdf] [สไลด์] [บล็อก]
ชาเดน สมิธ, มอสโตฟา แพตวารี, แบรนดอน นอริก, แพทริค เลอเกรสลีย์, ซัมยัม ราจบันดารี, จาเร็ด แคสเปอร์, จุน หลิว, ชริไม ปราภูมอย, จอร์จ เซอร์วีส, วิเจย์ คอร์ทิคานติ, เอลตัน จาง, รีวอน ไชลด์, เรซา ยาซดานี อมินาบาดี, จูลี เบอร์เนาเออร์, เซีย ซอง, โมฮัมหมัด ชูเอย์บี, หยูซีออง เขา, ไมเคิล ฮุสตัน, เศราบห์ ทิวารี, ไบรอัน คาตันซาโร. (2022) การใช้ DeepSpeed และ Megatron เพื่อฝึก Megatron-Turing NLG 530B ซึ่งเป็นโมเดลภาษากำเนิดขนาดใหญ่ arXiv:2201.11990
เซียวเซีย วู, เจ้อเว่ย เหยา, จางหมินเจีย, ฉงหลง ลี่, หยู่เซียงเหอ (2022) การบีบอัดขั้นสุดยอดสำหรับหม้อแปลงที่ผ่านการฝึกอบรมมาแล้วทำได้ง่ายและมีประสิทธิภาพ arXiv:2206.01859 และ NeurIPS 2022
เจ้อเหว่ย เหยา, เรซา แยซดานี อามินาบาดี, มินเจีย จาง, เซียวเซีย วู, ฉงหลง หลี่, หยู่เซียง เหอ (2022) ZeroQuant: การหาปริมาณหลังการฝึกอบรมที่มีประสิทธิภาพและราคาไม่แพงสำหรับหม้อแปลงขนาดใหญ่ arXiv:2206.01861 และ NeurIPS 2022 [สไลด์] [บล็อก]
เรซา ยัซดานี อมินาบาดี, ซัมยัม ราจบันดารี, มินเจีย จาง, อัมมาร์ อาห์หมัด อาวาน, เฉิง ลี่, ตู้หลี่, เอลตัน เจิ้ง, เจฟฟ์ ราสลีย์, ชาเดน สมิธ, โอลาตุนจิ รูวาเสะ, หยูซิยง เหอ (2022) การอนุมาน DeepSpeed: การเปิดใช้งานการอนุมานที่มีประสิทธิภาพของโมเดลหม้อแปลงในระดับที่ไม่เคยมีมาก่อน arXiv:2207.00032 และ SC 2022. [กระดาษ] [สไลด์] [บล็อก]
เจ้อเหว่ย เหยา, เซียวเซีย วู, ฉงหลง ลี่, คอนเนอร์ โฮล์มส์, มินเจีย จาง, เฉิง หลี่, หยู่เซียง เหอ (2022) Random-LTD: การปล่อยโทเค็นแบบสุ่มและแบบเลเยอร์นำมาซึ่งการฝึกอบรมที่มีประสิทธิภาพสำหรับหม้อแปลงขนาดใหญ่ arXiv:2211.11586.
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He (2022) ประสิทธิภาพข้อมูล DeepSpeed: การปรับปรุงคุณภาพโมเดลการเรียนรู้เชิงลึกและประสิทธิภาพการฝึกอบรมผ่านการสุ่มตัวอย่างและการกำหนดเส้นทางข้อมูลที่มีประสิทธิภาพ arXiv:2212.03597 เวิร์กช็อป ENLSP2023 ที่ NeurIPS2023
เซียวเซีย วู, เฉิง หลี่, เรซา แยซดานี อมินาบาดี, เจ้อเหว่ย เหยา, หยู่เซียง เหอ (2023) การทำความเข้าใจการหาปริมาณ INT4 สำหรับโมเดลหม้อแปลง: การเร่งความเร็วเวลาแฝง ความสามารถในการรวมองค์ประกอบ และกรณีความล้มเหลว arXiv:2301.12017 และ ICML2023
ไซเอด ซาวาด, เฉิง หลี่, เจ้อเว่ย เหยา, เอลตัน เจิ้ง, หยู่เซียง เหอ, เฟิง หยาน (2023) DySR: Adaptive Super-Resolution ผ่านอัลกอริทึมและการออกแบบร่วมระบบ ICLR:2023.
เซิ่ง เซิน, เจ้อเว่ย เหยา, ชุนหยวน ลี, เทรเวอร์ ดาร์เรล, เคิร์ต คอยเซอร์, หยู่เซียง เหอ (2023) การปรับขนาดโมเดลภาษาวิสัยทัศน์ด้วยผู้เชี่ยวชาญที่กระจัดกระจาย arXiv:2303.07226 และการค้นหาที่ EMNLP2023
เควนติน แอนโทนี่, อัมมาร์ อาห์หมัด อาวาน, เจฟฟ์ ราสลีย์, หยูเชียง เหอ, อาเมียร์ ชาฟี, มุสตาฟา อับดุลจับบาร์, ฮารี ซูบราโมนี, ดาบาเลสวาร์ แพนด้า (2023) MCR-DL: รันไทม์การสื่อสารแบบผสมผสานสำหรับการเรียนรู้เชิงลึก arXiv:2303.08374 และจะปรากฏที่ IPDPS 2023
สิทธัตถ์ ซิงห์, โอลาตุนจี รูวาเส, อัมมาร์ อาหมัด อาวัน, ซัมยัม ราชบันดารี, หยูเชียง เหอ, อภินาฟ บาเตเล (2023) A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize Mixture-of-Experts Training arXiv:2303.06318 และจะปรากฏที่ ICS 2023
กวานฮวา หวาง, เหอหยาง ฉิน, แซม อาเด จาค็อบส์, เซียวเซีย วู, คอนเนอร์ โฮล์มส์, เจ้อเหว่ย เหยา, ซัมยัม ราชบันดาริ, โอลาตุนจี รูวาเสะ, เฟิง หยาน, เล่ย หยาง, หยู่เซียง เหอ (2023) ZeRO++: การสื่อสารโดยรวมที่มีประสิทธิภาพอย่างยิ่งสำหรับการฝึกอบรมโมเดลยักษ์ arXiv:2306.10209 และ ML สำหรับ Sys Workshop ที่ NeurIPS2023 [บล็อก]
เจ้อเหว่ย เหยา, เซียวเซีย วู, เฉิง หลี่, สตีเฟน หยุน, หยู่เซียง เหอ (2023) ZeroQuant-V2: การสำรวจปริมาณหลังการฝึกอบรมใน LLM จากการศึกษาที่ครอบคลุมไปจนถึงค่าตอบแทนอันดับต่ำ arXiv:2303.08302 และเวิร์กช็อป ENLSP2023 ที่ NeurIPS2023 [สไลด์]
ปารีสา อาเมเนห์ กลนารี, เจ้อเหว่ย เหยา, หยูเชียง เหอ (2023) คำแนะนำแบบเลือกสรร: ขั้นตอนการลดสัญญาณรบกวนทั้งหมดของการแพร่กระจายแบบมีคำแนะนำมีความสำคัญหรือไม่? arXiv:2305.09847
เจ้อเหว่ย เหยา, เรซา แยซดานี อามินาบาดี, โอลาตุนจิ รูวาเสะ, ซัมยัม ราชบันดารี, เซียวเซีย วู, อัมมาร์ อาห์หมัด อาวาน, เจฟฟ์ ราสลีย์, มินเจีย จาง, คองหลง หลี่, คอนเนอร์ โฮล์มส์, จงจู่ โจว, ไมเคิล ไวแอตต์, มอลลี่ สมิธ, เลฟ คูริเลนโก, เหอหยาง ฉิน, มาซาฮิโระ ทานากะ, ฉุยเฉอ, ฉุยเหวิน เลออน ซ่ง, หยู่เซียงเหอ (2023) DeepSpeed-Chat: การฝึกอบรม RLHF ที่ง่าย รวดเร็ว และราคาไม่แพงของโมเดลที่คล้ายกับ ChatGPT ในทุกระดับ arXiv:2308.01320
เซียวเซีย วู, เจ้อเว่ย เหยา, หยู่เซียงเหอ (2023) ZeroQuant-FP: การก้าวกระโดดไปข้างหน้าใน LLM หลังการฝึกอบรม W4A8 การหาปริมาณโดยใช้รูปแบบทศนิยม arXiv:2307.09782 และการประชุมเชิงปฏิบัติการ ENLSP2023 ที่ NeurIPS2023 [สไลด์]
เจ้อเหว่ย เหยา, เซียวเซีย วู, คองหลง หลี่, มินเจีย จาง, เหอหยาง ฉิน, โอลาตุนจี รูวาเซะ, อัมมาร์ อาหมัด อาวาน, ซัมยัม ราชบันดาริ, หยูซียง เหอ (2023) DeepSpeed-VisualChat: การแชทแบบ Interleave แบบหลายรอบหลายรอบผ่าน Multi-Modal Causal Attention arXiv:2309.14327
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He และคณะ (2023) DeepSpeed4Science Initiative: การเปิดใช้งานการค้นพบทางวิทยาศาสตร์ขนาดใหญ่ผ่านเทคโนโลยีระบบ AI ที่ซับซ้อน arXiv:2310.04610 [บล็อก]
เจ้อเหว่ย เหยา, เรซา ยาซดานี อมินาบาดี, สตีเฟน หยุน, เซียวเซีย วู, เอลตัน เจิ้ง, หยู่เซียง เหอ (2023) ZeroQuant-HERO: เฟรมเวิร์ก Quantization หลังการฝึกอบรมที่แข็งแกร่งซึ่งได้รับการปรับปรุงด้วยฮาร์ดแวร์ที่แข็งแกร่งสำหรับ W8A8 Transformers arXiv:2310.17723
Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Reza Yazdani Aminabadi, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao (2023) ZeroQuant(4+2): นิยามใหม่ของ LLMs Quantization ด้วย กลยุทธ์ FP6-Centric ใหม่สำหรับงานสร้างที่หลากหลาย arXiv:2312.08583
ห่าวจุน เซี่ย, เจิ้น เจิ้ง, เซียวเซีย วู, ฉือหยาง เฉิน, เจ้อเว่ย เหยา, สตีเฟน หยุน, อาราช บัคเทียรี, ไมเคิล ไวแอตต์, ตงลิน จวง, จงจู่ โจว, โอลาทันจิ รูวาเสะ, หยูซียง เหอ, ซวยเหวิน ลีออน ซ่ง (2024) FP6-LLM: ให้บริการโมเดลภาษาขนาดใหญ่อย่างมีประสิทธิภาพผ่านการออกแบบร่วมของระบบอัลกอริทึม FP6-Centric arXiv:2401.14112
แซม อาเด จาคอบส์, มาซาฮิโระ ทานากะ, เฉิงหมิง จาง, มินเจีย จาง, เรซา ยาซดานี อามินาดาบี, ซวยเหวิน ลีออน ซอง, ซัมยัม ราชบันดารี, หยูซียง เหอ (2024) การเพิ่มประสิทธิภาพระบบสำหรับการเปิดใช้งานการฝึกอบรมโมเดลหม้อแปลงลำดับยาวมาก
ซินหยู เหลียน, แซม อาเด จาค็อบส์, เลฟ คูริเลนโก, มาซาฮิโระ ทานากะ, สตาส เบคแมน, โอลาตุนจิ รูวาเสะ, มินเจีย จาง (2024) จุดตรวจสอบสากล: จุดตรวจสอบที่มีประสิทธิภาพและยืดหยุ่นสำหรับการฝึกอบรมแบบกระจายขนาดใหญ่ arXiv:2406.18820