|英語 | 中文 |
立即訪問用於您的研究的高端按需計算——無需設置。
立即註冊並獲得 10 美元積分!
有限的學術獎金:
儲值 1,000 美元即可獲得 300 點
儲值 500 美元並獲得 100 個積分
[2024/10] 如何建立一個低成本的類似Sora的應用程式?為您提供的解決方案
[2024/09] 新加坡新創公司HPC-AI Tech獲得5000萬美元A輪融資,用於建立視訊生成AI模型和GPU平台
[2024/09] FP8混合精度訓練升級只需一行程式碼,AI大模型訓練成本降低30%
[2024/06] Open-Sora持續開源:一鍵生成任意16秒720p高清視頻,模型權重即用
[2024/05] 大型AI模型推理速度倍增,巨量推理開源發布
[2024/04] Open-Sora 重大升級:擁抱開源,單拍 16 秒視訊生成和 720p 分辨率
[2024/04] 為LLaMA3系列量身定制的最具成本效益的推理、微調和預訓練解決方案
為什麼選擇巨型人工智慧
特徵
用於現實世界應用的巨大人工智慧
Open-Sora:揭示完整的模型參數、訓練細節以及類似 Sora 的視訊生成模型的一切
Colossal-LLaMA-2:使用數百美元進行半天的培訓可產生與主流大型模型、開源和無商業的特定領域 LLM 解決方案類似的結果
ColossalChat:具有完整 RLHF 管道的克隆 ChatGPT 的開源解決方案
AIGC:穩定擴散的加速
生物醫學:AlphaFold 蛋白質結構的加速
並行訓練演示
駱駝 1/2/3
教育部
GPT-3
GPT-2
伯特
棕櫚
選擇
維特
推薦系統模型
單 GPU 訓練演示
GPT-2
棕櫚
推理
Colossal-Inference:大型AI模型推理速度翻倍
Grok-1:PyTorch + HuggingFace Inference 的 314B 模型
SwiftInfer:突破LLM多輪對話長度限制,加速46%
安裝
皮伊
從來源安裝
使用 Docker
社群
貢獻
引用我們
James Demmel 教授(加州大學柏克萊分校):Colossal-AI 讓訓練 AI 模型變得有效率、簡單且可擴展。
(回到頂部)
Colossal-AI 為您提供了一系列平行組件。我們的目標是支援您編寫分散式深度學習模型,就像您在筆記型電腦上編寫模型一樣。我們提供使用者友善的工具,只需幾行即可啟動分散式訓練和推理。
平行策略
數據並行性
管道並行性
1D、2D、2.5D、3D 張量並行性
序列平行性
零冗餘優化器 (ZeRO)
自動並行
異質記憶體管理
派崔克·斯塔
友善使用
基於設定檔的並行性
(回到頂部)
Open-Sora:揭示完整的模型參數、訓練細節以及類似 Sora 的視訊生成模型的所有內容 [程式碼] [部落格] [模型權重] [演示] [GPU Cloud Playground] [OpenSora Image]
(回到頂部)
[GPU雲遊樂場] [LLaMA3圖像]
7B:使用幾百美元進行半天的培訓可以獲得與主流大型模型、開源且無商業的特定領域 LLM 解決方案類似的結果。 [程式碼] [部落格] [HuggingFace 模型權重] [Modelscope 模型權重]
13B:只需 5000 美元即可構建精緻的 13B 私人模型。 [程式碼] [部落格] [HuggingFace 模型權重] [Modelscope 模型權重]
模型 | 骨幹 | 消耗代幣 | MMLU(5 次) | CMMLU(5 次) | AGIEval(5 次) | 高考(0次) | CEval(5 次) |
---|---|---|---|---|---|---|---|
百川7B | - | 1.2T | 42.32 (42.30) | 44.53 (44.02) | 38.72 | 36.74 | 42.80 |
百川13B基地 | - | 1.4T | 50.51 (51.60) | 55.73 (55.30) | 47.20 | 51.41 | 53.60 |
百川2-7B-基地 | - | 2.6T | 46.97 (54.16) | 57.67 (57.07) | 45.76 | 52.60 | 54.00 |
百川2-13B-基地 | - | 2.6T | 54.84 (59.17) | 62.62 (61.97) | 52.08 | 58.25 | 58.10 |
聊天GLM-6B | - | 1.0T | 39.67 (40.63) | 41.17 (-) | 40.10 | 36.53 | 38.90 |
聊天GLM2-6B | - | 1.4T | 44.74 (45.46) | 49.40 (-) | 46.36 | 45.49 | 51.70 |
實習生LM-7B | - | 1.6T | 46.70 (51.00) | 52.00 (-) | 44.77 | 61.64 | 52.80 |
Qwen-7B | - | 2.2T | 54.29 (56.70) | 56.03 (58.80) | 52.47 | 56.42 | 59.60 |
駱駝-2-7B | - | 2.0T | 44.47 (45.30) | 32.97(-) | 32.60 | 25.46 | - |
Linly-AI/中文-LLaMA-2-7B-hf | 駱駝-2-7B | 1.0T | 37.43 | 29.92 | 32:00 | 27.57 | - |
文格研究/yayi-7b-llama2 | 駱駝-2-7B | - | 38.56 | 31.52 | 30.99 | 25.95 | - |
紫慶陽/chinese-llama-2-7b | 駱駝-2-7B | - | 33.86 | 34.69 | 34.52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | 駱駝-2-7B | 0.3T | 43.73 | 42.04 | 37.64 | 30.61 | - |
LinkSoul/Chinese-Llama-2-7b | 駱駝-2-7B | - | 48.41 | 38.31 | 38.45 | 27.72 | - |
標記Alpha/Atom-7B | 駱駝-2-7B | 0.1T | 49.96 | 41.10 | 39.83 | 33:00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | 美洲駝13B | 0.11T | 50.25 | 40.99 | 40.04 | 30.54 | - |
巨大-LLaMA-2-7b-基地 | 駱駝-2-7B | 0.0085T | 53.06 | 49.89 | 51.48 | 58.82 | 50.2 |
巨大-LLaMA-2-13b-底座 | 駱駝-2-13B | 0.025T | 56.42 | 61.80 | 54.69 | 69.53 | 60.3 |
ColossalChat:一個開源解決方案,用於透過完整的 RLHF 管道克隆 ChatGPT。 [程式碼] [部落格] [示範] [教學]
RLHF PPO Stage3 訓練速度提升 10 倍
單一伺服器訓練速度提高了 7.73 倍,單 GPU 推理速度提高了 1.42 倍
一個 GPU 上的模型容量成長高達 10.3 倍
迷你演示訓練過程僅需要 1.62GB GPU 記憶體(任何消費級 GPU)
單GPU微調模型容量提升高達3.7倍
保持足夠高的運行速度
(回到頂部)
加速 AIGC(AI 生成內容)模型,例如 Stable Diffusion v1 和 Stable Diffusion v2。
訓練:將穩定擴散記憶體消耗減少高達 5.6 倍,硬體成本減少高達 46 倍(從 A100 到 RTX3060)。
DreamBooth 微調:僅使用所需主題的 3-5 張圖像來個性化您的模型。
推理:推理 GPU 記憶體消耗減少 2.5 倍。
(回到頂部)
AlphaFold 蛋白質結構的加速
FastFold:加速GPU叢集上的訓練和推理,更快的資料處理,推理序列包含超過10000個殘基。
FastFold 與 Intel:3 倍推理加速和 39% 成本降低。
xTrimoMultimer:將蛋白質單體和多聚體的結構預測速度提高 11 倍。
(回到頂部)
700億參數LLaMA3模型訓練加速18%【代碼】【GPU雲遊樂場】【LLaMA3 Image】
700 億參數 LLaMA2 模型訓練加速 195% [程式碼] [部落格]
650億參數大模型預訓練加速38%[程式碼][部落格]
增強MoE並行性,開源MoE模型訓練效率可提升9倍【程式碼】【部落格】
節省 50% GPU 資源和 10.7% 加速
GPU 記憶體消耗降低 11 倍,並透過張量並行實現超線性縮放效率
在相同硬體上機型尺寸增加 24 倍
超過 3 倍加速度
訓練速度提高 2 倍,或序列長度延長 50%
PaLM-colossalai:Google Pathways 語言模型 (PaLM) 的可擴展實作。
Open Pretrained Transformer(OPT)是 Meta 發布的一個 1750 億參數的 AI 語言模型,由於公開的預訓練模型權重,刺激 AI 程式設計師執行各種下游任務和應用程式部署。
線路成本低,提速微調OPT 45%。 [範例] [線上服務]
請造訪我們的文件和範例以了解更多詳細資訊。
批量大小增加 14 倍,張量並行度訓練速度加快 5 倍 = 64
快取嵌入,利用軟體快取以較小的 GPU 記憶體預算訓練更大的嵌入表。
(回到頂部)
在相同硬體上機型尺寸增加 20 倍
相同硬體上機型尺寸增加 120 倍 (RTX 3080)
在相同硬體上機型尺寸增加 34 倍
(回到頂部)
與 vLLM 在某些情況下的離線推理性能相比,大型 AI 模型的推理速度提高了一倍。 [程式碼] [部落格] [GPU Cloud Playground] [LLaMA3 Image]
3140 億參數 Grok-1 推理加速 3.8 倍,易於使用的 Python + PyTorch + HuggingFace 推理版本。
[程式碼] [部落格] [HuggingFace Grok-1 PyTorch 模型權重] [ModelScope Grok-1 PyTorch 模型權重]
SwiftInfer:推理效能提升46%,開源方案突破LLM多輪對話長度限制
(回到頂部)
要求:
PyTorch >= 2.2
Python >= 3.7
CUDA >= 11.0
NVIDIA GPU 運算能力 >= 7.0(V100/RTX20 及更高版本)
Linux作業系統
如果您在安裝時遇到任何問題,您可能想在此儲存庫中提出問題。
您可以使用以下命令輕鬆安裝 Colossal-AI。預設情況下,我們在安裝過程中不會建置 PyTorch 擴充功能。
pip 安裝 colossalai
注意:目前僅支援Linux。
但是,如果您想在安裝過程中建置 PyTorch 擴展,則可以設定BUILD_EXT=1
。
BUILD_EXT=1 pip 安裝 colossalai
否則,CUDA 核心將在您實際需要時在執行時間建置。
我們也每週繼續向 PyPI 發布夜間版本。這允許您存取主分支中未發布的功能和錯誤修復。安裝可以透過
pip 安裝 colossalai-nightly
Colossal-AI 的版本將與儲存庫的主分支保持一致。如果您遇到任何問題,請隨時提出問題。 :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install 。
預設情況下,我們不會編譯 CUDA/C++ 核心。 ColossalAI 將在運行時建構它們。如果要安裝並啟用 CUDA 核心融合(使用融合優化器時必須安裝):
BUILD_EXT=1 pip 安裝 。
對於使用 CUDA 10.2 的用戶,您仍然可以從原始碼建立 ColossalAI。但需要手動下載cub函式庫並複製到對應目錄。
# 克隆儲存庫git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# 下載 cub 函式庫wget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip 解壓縮1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install 。
(回到頂部)
您可以直接從我們的 DockerHub 頁面拉取 docker 映像。發布後圖像會自動上傳。
執行以下命令從提供的 Dockerfile 建置 docker 映像。
從頭開始建置 Colossal-AI 需要 GPU 支持,在進行
docker build
時需要預設使用 Nvidia Docker Runtime。更多詳細資訊可以在這裡找到。我們建議您直接從我們的專案頁面安裝 Colossal-AI。
cd ColossalAI docker build -t colossalai ./docker
執行以下命令以互動模式啟動 docker 容器。
docker run -ti --gpus all --rm --ipc=主機 colossalai bash
(回到頂部)
加入論壇、Slack 和微信上的 Colossal-AI 社區,與我們的工程團隊分享您的建議、回饋和問題。
借鏡BLOOM和Stable Diffusion的成功嘗試,歡迎所有有算力、資料集、模型的開發者和合作夥伴加入並共建Colossal-AI社區,為邁向大AI模型時代而努力!
您可以透過以下方式聯絡我們或參與:
留下一顆星以表達您的喜歡和支持。謝謝!
在 GitHub 上發布問題或提交 PR 請遵循貢獻中的指南
將您的正式提案發送至電子郵件 [email protected]
非常感謝我們所有出色的貢獻者!
(回到頂部)
我們利用 GitHub Actions 的強大功能來自動化我們的開發、發布和部署工作流程。請查看此文檔,以了解如何操作自動化工作流程。
這個專案的靈感來自於一些相關專案(有些是我們團隊的,有些是其他組織的)。我們要感謝參考清單中列出的這些令人驚嘆的項目。
若要引用該項目,您可以使用以下 BibTeX 引用。
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI已被NeurIPS、SC、AAAI、PPoPP、CVPR、ISC、NVIDIA GTC等頂級會議接受為官方教學。
(回到頂部)