- อังกฤษ | 中文 |
เข้าถึงคอมพิวเตอร์ระดับไฮเอนด์ตามความต้องการเพื่อการวิจัยของคุณได้ทันทีโดยไม่จำเป็นต้องตั้งค่าใดๆ
ลงทะเบียนตอนนี้และรับเครดิต $10!
โบนัสการศึกษาแบบจำกัด:
เติมเงิน $1,000 และรับ 300 เครดิต
เติมเงิน $500 และรับ 100 เครดิต
[2024/10] จะสร้างแอปที่เหมือน Sora ราคาประหยัดได้อย่างไร โซลูชั่นสำหรับคุณ
[2024/09] HPC-AI Tech สตาร์ทอัพในสิงคโปร์ได้รับเงินทุน 50 ล้านเหรียญสหรัฐในการระดมทุน Series A เพื่อสร้างโมเดล AI ในการสร้างวิดีโอและแพลตฟอร์ม GPU
[2024/09] การลดต้นทุนการฝึกโมเดลขนาดใหญ่ของ AI ลง 30% ต้องใช้โค้ดเพียงบรรทัดเดียวจากการอัพเกรดการฝึกความแม่นยำแบบผสม FP8
[2024/06] Open-Sora สานต่อโอเพ่นซอร์สต่อไป: สร้างวิดีโอ HD 720p 16 วินาทีใดๆ ได้ด้วยคลิกเดียว น้ำหนักโมเดลพร้อมใช้งาน
[2024/05] ความเร็วในการอนุมานโมเดล AI ขนาดใหญ่เพิ่มขึ้นสองเท่า การเปิดตัวโอเพ่นซอร์สการอนุมานมหาศาล
[2024/04] Open-Sora เปิดตัวการอัพเกรดครั้งใหญ่: โอบรับโอเพ่นซอร์สด้วยการสร้างวิดีโอ 16 วินาทีช็อตเดียวและความละเอียด 720p
[2024/04] โซลูชันที่คุ้มต้นทุนที่สุดสำหรับการอนุมาน การปรับแต่งอย่างละเอียด และการฝึกอบรมล่วงหน้า ซึ่งปรับให้เหมาะกับซีรี่ส์ LLaMA3
ทำไมต้อง Colossal-AI
คุณสมบัติ
Colossal-AI สำหรับการใช้งานในโลกแห่งความเป็นจริง
Open-Sora: เปิดเผยพารามิเตอร์โมเดลที่สมบูรณ์ รายละเอียดการฝึกอบรม และทุกอย่างสำหรับโมเดลการสร้างวิดีโอที่คล้ายกับ Sora
Colossal-LLaMA-2: การฝึกอบรมครึ่งวันโดยใช้เงินเพียงไม่กี่ร้อยดอลลาร์ ให้ผลลัพธ์ที่คล้ายกับโมเดลขนาดใหญ่ทั่วไป โซลูชัน Llm เฉพาะโดเมนแบบโอเพ่นซอร์สและไร้การค้า
ColossalChat: โซลูชันโอเพ่นซอร์สสำหรับการโคลน ChatGPT ด้วยไปป์ไลน์ RLHF ที่สมบูรณ์
AIGC: การเร่งความเร็วของการแพร่กระจายที่เสถียร
ชีวเวชศาสตร์: การเร่งโครงสร้างโปรตีน AlphaFold
การสาธิตการฝึกอบรมแบบขนาน
ลามา 1/2/3
โมอี
GPT-3
GPT-2
เบิร์ต
ปาล์ม
เลือก
ไวที
แบบจำลองระบบการแนะนำ
การสาธิตการฝึกอบรม GPU เดี่ยว
GPT-2
ปาล์ม
การอนุมาน
การอนุมานขนาดมหึมา: ความเร็วในการอนุมานโมเดล AI ขนาดใหญ่เพิ่มขึ้นสองเท่า
Grok-1: โมเดล 314B ของ PyTorch + การอนุมาน HuggingFace
SwiftInfer: ทำลายขีดจำกัดความยาวของ LLM สำหรับการสนทนาแบบหลายรอบด้วยการเร่งความเร็ว 46%
การติดตั้ง
พีพีไอ
ติดตั้งจากแหล่งที่มา
ใช้นักเทียบท่า
ชุมชน
มีส่วนร่วม
อ้างอิงถึงเรา
ศาสตราจารย์ James Demmel (UC Berkeley): Colossal-AI ทำให้การฝึกอบรมโมเดล AI มีประสิทธิภาพ ง่ายดาย และปรับขนาดได้
(กลับไปด้านบน)
Colossal-AI มอบคอลเลกชันส่วนประกอบแบบขนานให้กับคุณ เรามุ่งหวังที่จะสนับสนุนคุณในการเขียนโมเดลการเรียนรู้เชิงลึกแบบกระจาย เช่นเดียวกับที่คุณเขียนโมเดลบนแล็ปท็อป เรามีเครื่องมือที่ใช้งานง่ายเพื่อเริ่มต้นการฝึกอบรมและการอนุมานแบบกระจายในไม่กี่บรรทัด
กลยุทธ์ความเท่าเทียม
ความเท่าเทียมของข้อมูล
ความเท่าเทียมของท่อ
1D, 2D, 2.5D, 3D เทนเซอร์ขนาน
ลำดับความเท่าเทียม
เครื่องมือเพิ่มประสิทธิภาพความซ้ำซ้อนเป็นศูนย์ (ZeRO)
อัตโนมัติขนาน
การจัดการหน่วยความจำที่แตกต่างกัน
แพทริคสตาร์
การใช้งานที่เป็นมิตร
ความเท่าเทียมตามไฟล์คอนฟิกูเรชัน
(กลับไปด้านบน)
Open-Sora:เปิดเผยพารามิเตอร์โมเดลที่สมบูรณ์ รายละเอียดการฝึกอบรม และทุกอย่างสำหรับโมเดลการสร้างวิดีโอที่คล้ายกับ Sora [รหัส] [บล็อก] [น้ำหนักของโมเดล] [สาธิต] [GPU Cloud Playground] [รูปภาพ OpenSora]
(กลับไปด้านบน)
[GPU Cloud Playground] [รูปภาพ LLaMA3]
7B: การฝึกอบรมครึ่งวันโดยใช้เงินเพียงไม่กี่ร้อยดอลลาร์ให้ผลลัพธ์ที่คล้ายคลึงกันกับโมเดลขนาดใหญ่ทั่วไป โซลูชัน LLM เฉพาะโดเมนแบบโอเพ่นซอร์สและไร้การค้า [code] [blog] [น้ำหนักโมเดล HuggingFace] [น้ำหนักโมเดล Modelscope]
13B: สร้างโมเดลส่วนตัว 13B ที่ได้รับการปรับปรุงด้วยเงินเพียง 5,000 เหรียญสหรัฐ [code] [blog] [น้ำหนักโมเดล HuggingFace] [น้ำหนักโมเดล Modelscope]
แบบอย่าง | กระดูกสันหลัง | โทเค็นที่ใช้ไป | เอ็มเอ็มแอลยู (5 ช็อต) | CMMLU (5 นัด) | เอจีวัล (5 ช็อต) | เกาเกา (0 นัด) | ซีวัล (5 นัด) |
---|---|---|---|---|---|---|---|
ไป่ชวน-7B | - | 1.2T | 42.32 (42.30) | 44.53 (44.02) | 38.72 | 36.74 | 42.80 |
ไป๋ชวน-13B-ฐาน | - | 1.4T | 50.51 (51.60) | 55.73 (55.30) | 47.20 | 51.41 | 53.60 |
ไป่ชวน2-7B-ฐาน | - | 2.6T | 46.97 (54.16) | 57.67 (57.07) | 45.76 | 52.60 | 54.00 |
ไป่ชวน2-13B-ฐาน | - | 2.6T | 54.84 (59.17) | 62.62 (61.97) | 52.08 | 58.25 | 58.10 |
แชทGLM-6B | - | 1.0T | 39.67 (40.63) | 41.17 (-) | 40.10 | 36.53 | 38.90 |
แชทGLM2-6B | - | 1.4T | 44.74 (45.46) | 49.40 (-) | 46.36 | 45.49 | 51.70 |
ฝึกงานLM-7B | - | 1.6T | 46.70 (51.00) | 52.00 (-) | 44.77 | 61.64 | 52.80 |
คิวเวน-7B | - | 2.2T | 54.29 (56.70) | 56.03 (58.80) | 52.47 | 56.42 | 59.60 |
ลามะ-2-7B | - | 2.0T | 44.47 (45.30) | 32.97 (-) | 32.60 | 25.46 | - |
Linly-AI/จีน-LLaMA-2-7B-hf | ลามะ-2-7B | 1.0T | 37.43 | 29.92 | 32.00 น | 27.57 | - |
wenge-การวิจัย/yayi-7b-llama2 | ลามะ-2-7B | - | 38.56 | 31.52 | 30.99 | 25.95 | - |
ซีชิงหยาง/จีน-ลามะ-2-7b | ลามะ-2-7B | - | 33.86 | 34.69 | 34.52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | ลามะ-2-7B | 0.3T | 43.73 | 42.04 | 37.64 | 30.61 | - |
LinkSoul/จีน-ลามะ-2-7b | ลามะ-2-7B | - | 48.41 | 38.31 | 38.45 | 27.72 | - |
ธงAlpha/Atom-7B | ลามะ-2-7B | 0.1T | 49.96 | 41.10 | 39.83 | 33.00 น | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | ลามะ-13B | 0.11T | 50.25 | 40.99 | 40.04 | 30.54 | - |
มหึมา-LLaMA-2-7b-ฐาน | ลามะ-2-7B | 0.0085T | 53.06 | 49.89 | 51.48 | 58.82 | 50.2 |
ขนาดมหึมา-LLaMA-2-13b-ฐาน | ลามะ-2-13B | 0.025T | 56.42 | 61.80 | 54.69 | 69.53 | 60.3 |
ColossalChat: โซลูชันโอเพ่นซอร์สสำหรับการโคลน ChatGPT ด้วยไปป์ไลน์ RLHF ที่สมบูรณ์ [รหัส] [บล็อก] [สาธิต] [บทช่วยสอน]
เร็วขึ้นสูงสุด 10 เท่าสำหรับการฝึกอบรม RLHF PPO Stage3
เร็วขึ้นสูงสุด 7.73 เท่าสำหรับการฝึกฝนเซิร์ฟเวอร์เดี่ยว และเร็วขึ้น 1.42 เท่าสำหรับการอนุมาน GPU เดี่ยว
ความจุของโมเดลเพิ่มขึ้นสูงสุด 10.3 เท่าบน GPU หนึ่งตัว
กระบวนการฝึกอบรมสาธิตขนาดเล็กต้องใช้หน่วยความจำ GPU เพียง 1.62GB (GPU ระดับผู้บริโภคทั่วไป)
เพิ่มความจุของโมเดลการปรับแต่งได้สูงสุดถึง 3.7 เท่าบน GPU ตัวเดียว
รักษาความเร็วในการวิ่งให้สูงเพียงพอ
(กลับไปด้านบน)
การเร่งความเร็วของโมเดล AIGC (เนื้อหาที่สร้างโดย AI) เช่น Stable Diffusion v1 และ Stable Diffusion v2
การฝึกอบรม: ลดการใช้หน่วยความจำ Stable Diffusion สูงสุด 5.6 เท่า และราคาฮาร์ดแวร์สูงสุด 46 เท่า (ตั้งแต่ A100 ถึง RTX3060)
การปรับแต่ง DreamBooth แบบละเอียด: ปรับแต่งโมเดลของคุณโดยใช้รูปภาพวัตถุที่ต้องการเพียง 3-5 รูป
การอนุมาน: ลดการใช้หน่วยความจำ GPU อนุมานลง 2.5 เท่า
(กลับไปด้านบน)
การเร่งโครงสร้างโปรตีน AlphaFold
FastFold: เร่งการฝึกอบรมและการอนุมานบนคลัสเตอร์ GPU การประมวลผลข้อมูลที่เร็วขึ้น ลำดับการอนุมานที่มีสารตกค้างมากกว่า 10,000 รายการ
FastFold ด้วย Intel: การเร่งความเร็วการอนุมาน 3 เท่า และลดต้นทุน 39%
xTrimoMultimer: เร่งการทำนายโครงสร้างของโมโนเมอร์โปรตีนและมัลติเมอร์ 11 เท่า
(กลับไปด้านบน)
การฝึกอบรมโมเดล LLaMA3 พารามิเตอร์ 70 พันล้านเร่งความเร็วขึ้น 18% [รหัส] [GPU Cloud Playground] [รูปภาพ LLaMA3]
การฝึกอบรมโมเดล LLaMA2 พารามิเตอร์ 70 พันล้านเร่งความเร็วขึ้น 195% [รหัส] [บล็อก]
การฝึกโมเดลขนาดใหญ่ 65 พันล้านพารามิเตอร์เร่งขึ้น 38% [รหัส] [บล็อก]
ความเท่าเทียม MoE ที่ได้รับการปรับปรุง การฝึกอบรมโมเดล MoE แบบโอเพ่นซอร์สมีประสิทธิภาพมากขึ้น 9 เท่า [รหัส] [บล็อก]
ประหยัดทรัพยากร GPU 50% และการเร่งความเร็ว 10.7%
การใช้หน่วยความจำ GPU ลดลง 11 เท่า และประสิทธิภาพการปรับขนาดขั้นสูงด้วย Tensor Parallelism
ขนาดโมเดลใหญ่ขึ้น 24 เท่าบนฮาร์ดแวร์เดียวกัน
อัตราเร่งมากกว่า 3 เท่า
การฝึกเร็วขึ้น 2 เท่า หรือความยาวลำดับยาวขึ้น 50%
PaLM-colossalai: การใช้งานที่ปรับขนาดได้ของ Pathways Language Model (PaLM) ของ Google
Open Pretrained Transformer (OPT) โมเดลภาษา AI พารามิเตอร์ 175 พันล้านที่เผยแพร่โดย Meta ซึ่งกระตุ้นให้โปรแกรมเมอร์ AI ทำงานดาวน์สตรีมและการปรับใช้แอปพลิเคชันต่างๆ เนื่องจากน้ำหนักโมเดลที่ได้รับการฝึกอบรมล่วงหน้าสาธารณะ
OPT การปรับแต่งแบบละเอียดเร็วขึ้น 45% ด้วยต้นทุนที่ต่ำในสาย [ตัวอย่าง] [การให้บริการออนไลน์]
กรุณาเยี่ยมชมเอกสารและตัวอย่างของเราสำหรับรายละเอียดเพิ่มเติม
ขนาดแบตช์ใหญ่ขึ้น 14 เท่า และการฝึกเร็วขึ้น 5 เท่าสำหรับ Tensor Parallelism = 64
การฝังแบบแคช ใช้แคชของซอฟต์แวร์เพื่อฝึกตารางการฝังที่ใหญ่ขึ้นด้วยงบประมาณหน่วยความจำ GPU ที่น้อยลง
(กลับไปด้านบน)
ขนาดโมเดลใหญ่ขึ้น 20 เท่าบนฮาร์ดแวร์เดียวกัน
ขนาดโมเดลใหญ่กว่า 120 เท่าบนฮาร์ดแวร์เดียวกัน (RTX 3080)
ขนาดโมเดลใหญ่กว่า 34 เท่าบนฮาร์ดแวร์เดียวกัน
(กลับไปด้านบน)
ความเร็วในการอนุมานโมเดล AI ขนาดใหญ่เพิ่มขึ้นสองเท่า เมื่อเทียบกับประสิทธิภาพการอนุมานออฟไลน์ของ vLLM ในบางกรณี [รหัส] [บล็อก] [GPU Cloud Playground] [รูปภาพ LLaMA3]
การอนุมานพารามิเตอร์ Grok-1 314 พันล้านพารามิเตอร์เร่งความเร็วขึ้น 3.8 เท่า ซึ่งเป็นเวอร์ชัน Python + PyTorch + HuggingFace ที่ใช้งานง่ายสำหรับการอนุมาน
[code] [blog] [ตุ้มน้ำหนักโมเดล HuggingFace Grok-1 PyTorch] [ตุ้มน้ำหนักโมเดล ModelScope Grok-1 PyTorch]
SwiftInfer: ประสิทธิภาพการอนุมานดีขึ้น 46% โซลูชันโอเพ่นซอร์สทำลายขีดจำกัดความยาวของ LLM สำหรับการสนทนาแบบหลายรอบ
(กลับไปด้านบน)
ความต้องการ:
ไพทอร์ช >= 2.2
หลาม >= 3.7
CUDA >= 11.0
ความสามารถในการประมวลผล NVIDIA GPU >= 7.0 (V100/RTX20 และสูงกว่า)
ระบบปฏิบัติการลินุกซ์
หากคุณประสบปัญหาใดๆ ในการติดตั้ง คุณอาจต้องการแจ้งปัญหาในพื้นที่เก็บข้อมูลนี้
คุณสามารถติดตั้ง Colossal-AI ได้อย่างง่ายดายด้วยคำสั่งต่อไปนี้ ตามค่าเริ่มต้น เราจะไม่สร้างส่วนขยาย PyTorch ระหว่างการติดตั้ง
pip ติดตั้ง colossalai
หมายเหตุ: ขณะนี้รองรับเฉพาะ Linux เท่านั้น
อย่างไรก็ตาม หากคุณต้องการสร้างส่วนขยาย PyTorch ระหว่างการติดตั้ง คุณสามารถตั้งค่า BUILD_EXT=1
ได้
BUILD_EXT=1 pip ติดตั้ง colossalai
มิฉะนั้น เคอร์เนล CUDA จะถูกสร้างขึ้นระหว่างรันไทม์เมื่อคุณต้องการมันจริงๆ
นอกจากนี้เรายังปล่อยเวอร์ชันกลางคืนไปยัง PyPI ทุกสัปดาห์อีกด้วย สิ่งนี้ช่วยให้คุณเข้าถึงคุณสมบัติที่ยังไม่เผยแพร่และการแก้ไขข้อบกพร่องในสาขาหลัก สามารถติดตั้งได้ทาง
pip ติดตั้ง colossalai ทุกคืน
เวอร์ชันของ Colossal-AI จะสอดคล้องกับสาขาหลักของพื้นที่เก็บข้อมูล อย่าลังเลที่จะแจ้งปัญหาหากคุณพบปัญหาใด ๆ -
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# ติดตั้ง colossalaipip ติดตั้ง
ตามค่าเริ่มต้น เราจะไม่คอมไพล์เคอร์เนล CUDA/C++ ColossalAI จะสร้างมันขึ้นมาระหว่างรันไทม์ หากคุณต้องการติดตั้งและเปิดใช้งานการรวมเคอร์เนล CUDA (การติดตั้งภาคบังคับเมื่อใช้ตัวเพิ่มประสิทธิภาพ fused):
BUILD_EXT=1 pip การติดตั้ง
สำหรับผู้ใช้ที่มี CUDA 10.2 คุณยังคงสามารถสร้าง ColossalAI จากแหล่งที่มาได้ อย่างไรก็ตาม คุณต้องดาวน์โหลดไลบรารี่ Cub ด้วยตนเองและคัดลอกไปยังไดเร็กทอรีที่เกี่ยวข้อง
# โคลนที่เก็บ git clone https://github.com/hcaitech/ColossalAI.gitcd ColossalAI# ดาวน์โหลดไลบรารี่ cubwget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip แตกไฟล์ 1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip ติดตั้ง
(กลับไปด้านบน)
คุณสามารถดึงอิมเมจนักเทียบท่าได้โดยตรงจากหน้า DockerHub ของเรา รูปภาพจะถูกอัปโหลดโดยอัตโนมัติเมื่อเผยแพร่
รันคำสั่งต่อไปนี้เพื่อสร้างอิมเมจนักเทียบท่าจาก Dockerfile ที่ให้มา
การสร้าง Colossal-AI ตั้งแต่เริ่มต้นจำเป็นต้องรองรับ GPU คุณต้องใช้ Nvidia Docker Runtime เป็นค่าเริ่มต้นเมื่อทำ
docker build
รายละเอียดเพิ่มเติมสามารถพบได้ที่นี่ เราขอแนะนำให้คุณติดตั้ง Colossal-AI จากหน้าโครงการของเราโดยตรง
ซีดี ColossalAI นักเทียบท่า build -t colossalai ./docker
รันคำสั่งต่อไปนี้เพื่อเริ่มคอนเทนเนอร์นักเทียบท่าในโหมดโต้ตอบ
นักเทียบท่า run -ti --gpus all --rm --ipc=host colossalai bash
(กลับไปด้านบน)
เข้าร่วมชุมชน Colossal-AI บนฟอรัม, Slack และ WeChat (微信) เพื่อแบ่งปันข้อเสนอแนะ คำติชม และคำถามของคุณกับทีมวิศวกรของเรา
จากความพยายามที่ประสบความสำเร็จของ BLOOM และ Stable Diffusion นักพัฒนาและพันธมิตรทุกรายที่มีพลังการประมวลผล ชุดข้อมูล โมเดล ยินดีที่จะเข้าร่วมและสร้างชุมชน Colossal-AI มุ่งสู่ยุคของโมเดล AI ขนาดใหญ่!
คุณสามารถติดต่อเราหรือเข้าร่วมได้ด้วยวิธีต่อไปนี้:
ออกจากดาวเพื่อแสดงความชื่นชอบและการสนับสนุนของคุณ ขอบคุณ!
การโพสต์ปัญหาหรือการส่ง PR บน GitHub ให้ปฏิบัติตามแนวทางในการสนับสนุน
ส่งข้อเสนออย่างเป็นทางการของคุณไปที่อีเมล [email protected]
ขอบคุณมากสำหรับผู้มีส่วนร่วมที่น่าทึ่งของเราทุกคน!
(กลับไปด้านบน)
เราใช้ประโยชน์จากพลังของ GitHub Actions เพื่อทำให้เวิร์กโฟลว์การพัฒนา การเผยแพร่ และการปรับใช้ของเราเป็นไปโดยอัตโนมัติ โปรดตรวจสอบเอกสารนี้เกี่ยวกับวิธีการดำเนินการเวิร์กโฟลว์อัตโนมัติ
โครงการนี้ได้รับแรงบันดาลใจจากโครงการที่เกี่ยวข้องบางโครงการ (บางโครงการโดยทีมงานของเราและบางโครงการโดยองค์กรอื่น) เราอยากจะให้เครดิตโครงการที่น่าทึ่งเหล่านี้ตามที่ระบุไว้ในรายการอ้างอิง
หากต้องการอ้างอิงโปรเจ็กต์นี้ คุณสามารถใช้การอ้างอิง BibTeX ต่อไปนี้
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI ได้รับการยอมรับให้เป็นบทช่วยสอนอย่างเป็นทางการโดยการประชุมชั้นนำ NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC ฯลฯ
(กลับไปด้านบน)