|英语 | 中文 |
立即访问用于您的研究的高端按需计算——无需设置。
立即注册并获得 10 美元积分!
有限的学术奖金:
充值 1,000 美元即可获得 300 积分
充值 500 美元并获得 100 个积分
[2024/10] 如何构建一个低成本的类似Sora的应用程序?为您提供的解决方案
[2024/09] 新加坡初创公司HPC-AI Tech获得5000万美元A轮融资,用于构建视频生成AI模型和GPU平台
[2024/09] FP8混合精度训练升级仅需一行代码,AI大模型训练成本降低30%
[2024/06] Open-Sora持续开源:一键生成任意16秒720p高清视频,模型权重即用
[2024/05] 大型AI模型推理速度倍增,巨量推理开源发布
[2024/04] Open-Sora 重大升级:拥抱开源,单拍 16 秒视频生成和 720p 分辨率
[2024/04] 为LLaMA3系列量身定制的最具成本效益的推理、微调和预训练解决方案
为什么选择巨型人工智能
特征
用于现实世界应用的巨大人工智能
Open-Sora:揭示完整的模型参数、训练细节以及类似 Sora 的视频生成模型的一切
Colossal-LLaMA-2:使用几百美元进行半天的培训可产生与主流大型模型、开源和无商业的特定领域 LLM 解决方案类似的结果
ColossalChat:具有完整 RLHF 管道的克隆 ChatGPT 的开源解决方案
AIGC:稳定扩散的加速
生物医学:AlphaFold 蛋白质结构的加速
并行训练演示
骆驼 1/2/3
教育部
GPT-3
GPT-2
伯特
棕榈
选择
维特
推荐系统模型
单 GPU 训练演示
GPT-2
棕榈
推理
Colossal-Inference:大型AI模型推理速度翻倍
Grok-1:PyTorch + HuggingFace Inference 的 314B 模型
SwiftInfer:突破LLM多轮对话长度限制,加速46%
安装
皮伊
从源安装
使用 Docker
社区
贡献
引用我们
James Demmel 教授(加州大学伯克利分校):Colossal-AI 使训练 AI 模型变得高效、简单且可扩展。
(回到顶部)
Colossal-AI 为您提供了一系列并行组件。我们的目标是支持您编写分布式深度学习模型,就像您在笔记本电脑上编写模型一样。我们提供用户友好的工具,只需几行即可启动分布式训练和推理。
并行策略
数据并行性
管道并行性
1D、2D、2.5D、3D 张量并行性
序列并行性
零冗余优化器 (ZeRO)
自动并行
异构内存管理
帕特里克·斯塔
友好使用
基于配置文件的并行性
(回到顶部)
Open-Sora:揭示完整的模型参数、训练细节以及类似 Sora 的视频生成模型的所有内容 [代码] [博客] [模型权重] [演示] [GPU Cloud Playground] [OpenSora Image]
(回到顶部)
[GPU云游乐场] [LLaMA3图像]
7B:使用几百美元进行半天的培训可以得到与主流大型模型、开源且无商业的特定领域 LLM 解决方案类似的结果。 [代码] [博客] [HuggingFace 模型权重] [Modelscope 模型权重]
13B:只需 5000 美元即可构建精致的 13B 私人模型。 [代码] [博客] [HuggingFace 模型权重] [Modelscope 模型权重]
模型 | 骨干 | 消耗代币 | MMLU(5 次) | CMMLU(5 次) | AGIEval(5 次) | 高考(0次) | CEval(5 次) |
---|---|---|---|---|---|---|---|
百川7B | - | 1.2T | 42.32 (42.30) | 44.53 (44.02) | 38.72 | 36.74 | 42.80 |
百川13B基地 | - | 1.4T | 50.51 (51.60) | 55.73 (55.30) | 47.20 | 51.41 | 53.60 |
百川2-7B-基地 | - | 2.6T | 46.97 (54.16) | 57.67 (57.07) | 45.76 | 52.60 | 54.00 |
百川2-13B-基地 | - | 2.6T | 54.84 (59.17) | 62.62 (61.97) | 52.08 | 58.25 | 58.10 |
聊天GLM-6B | - | 1.0T | 39.67 (40.63) | 41.17 (-) | 40.10 | 36.53 | 38.90 |
聊天GLM2-6B | - | 1.4T | 44.74 (45.46) | 49.40 (-) | 46.36 | 45.49 | 51.70 |
实习生LM-7B | - | 1.6T | 46.70 (51.00) | 52.00 (-) | 44.77 | 61.64 | 52.80 |
Qwen-7B | - | 2.2T | 54.29 (56.70) | 56.03 (58.80) | 52.47 | 56.42 | 59.60 |
骆驼-2-7B | - | 2.0T | 44.47 (45.30) | 32.97(-) | 32.60 | 25.46 | - |
Linly-AI/中文-LLaMA-2-7B-hf | 骆驼-2-7B | 1.0T | 37.43 | 29.92 | 32:00 | 27.57 | - |
文格研究/yayi-7b-llama2 | 骆驼-2-7B | - | 38.56 | 31.52 | 30.99 | 25.95 | - |
紫庆阳/chinese-llama-2-7b | 骆驼-2-7B | - | 33.86 | 34.69 | 34.52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | 骆驼-2-7B | 0.3T | 43.73 | 42.04 | 37.64 | 30.61 | - |
LinkSoul/Chinese-Llama-2-7b | 骆驼-2-7B | - | 48.41 | 38.31 | 38.45 | 27.72 | - |
标记Alpha/Atom-7B | 骆驼-2-7B | 0.1T | 49.96 | 41.10 | 39.83 | 33:00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | 美洲驼13B | 0.11T | 50.25 | 40.99 | 40.04 | 30.54 | - |
巨大-LLaMA-2-7b-基地 | 骆驼-2-7B | 0.0085T | 53.06 | 49.89 | 51.48 | 58.82 | 50.2 |
巨大-LLaMA-2-13b-底座 | 骆驼-2-13B | 0.025T | 56.42 | 61.80 | 54.69 | 69.53 | 60.3 |
ColossalChat:一个开源解决方案,用于通过完整的 RLHF 管道克隆 ChatGPT。 [代码] [博客] [演示] [教程]
RLHF PPO Stage3 训练速度提高 10 倍
单服务器训练速度提高了 7.73 倍,单 GPU 推理速度提高了 1.42 倍
一个 GPU 上的模型容量增长高达 10.3 倍
迷你演示训练过程仅需要 1.62GB GPU 内存(任何消费级 GPU)
单GPU微调模型容量提升高达3.7倍
保持足够高的运行速度
(回到顶部)
加速 AIGC(AI 生成内容)模型,例如 Stable Diffusion v1 和 Stable Diffusion v2。
训练:将稳定扩散内存消耗减少高达 5.6 倍,将硬件成本减少高达 46 倍(从 A100 到 RTX3060)。
DreamBooth 微调:仅使用所需主题的 3-5 张图像来个性化您的模型。
推理:推理 GPU 内存消耗减少 2.5 倍。
(回到顶部)
AlphaFold 蛋白质结构的加速
FastFold:加速GPU集群上的训练和推理,更快的数据处理,推理序列包含超过10000个残基。
FastFold 与 Intel:3 倍推理加速和 39% 成本降低。
xTrimoMultimer:将蛋白质单体和多聚体的结构预测速度提高 11 倍。
(回到顶部)
700亿参数LLaMA3模型训练加速18%【代码】【GPU云游乐场】【LLaMA3 Image】
700 亿参数 LLaMA2 模型训练加速 195% [代码] [博客]
650亿参数大模型预训练加速38%[代码][博客]
增强MoE并行性,开源MoE模型训练效率可提升9倍【代码】【博客】
节省 50% GPU 资源和 10.7% 加速
GPU 内存消耗降低 11 倍,并通过张量并行实现超线性缩放效率
在相同硬件上模型尺寸增大 24 倍
超过 3 倍加速度
训练速度提高 2 倍,或序列长度延长 50%
PaLM-colossalai:Google Pathways 语言模型 (PaLM) 的可扩展实现。
Open Pretrained Transformer(OPT)是 Meta 发布的一个 1750 亿参数的 AI 语言模型,由于公开的预训练模型权重,刺激 AI 程序员执行各种下游任务和应用程序部署。
线路成本低,提速微调OPT 45%。 [示例] [在线服务]
请访问我们的文档和示例以了解更多详细信息。
批量大小增大 14 倍,张量并行度训练速度加快 5 倍 = 64
缓存嵌入,利用软件缓存以较小的 GPU 内存预算训练更大的嵌入表。
(回到顶部)
在相同硬件上模型尺寸增大 20 倍
相同硬件上模型尺寸增大 120 倍 (RTX 3080)
在相同硬件上模型尺寸增大 34 倍
(回到顶部)
与 vLLM 在某些情况下的离线推理性能相比,大型 AI 模型的推理速度提高了一倍。 [代码] [博客] [GPU Cloud Playground] [LLaMA3 Image]
3140 亿参数 Grok-1 推理加速 3.8 倍,易于使用的 Python + PyTorch + HuggingFace 推理版本。
[代码] [博客] [HuggingFace Grok-1 PyTorch 模型权重] [ModelScope Grok-1 PyTorch 模型权重]
SwiftInfer:推理性能提升46%,开源方案突破LLM多轮对话长度限制
(回到顶部)
要求:
PyTorch >= 2.2
Python >= 3.7
CUDA >= 11.0
NVIDIA GPU 计算能力 >= 7.0(V100/RTX20 及更高版本)
Linux操作系统
如果您在安装时遇到任何问题,您可能想在此存储库中提出问题。
您可以使用以下命令轻松安装 Colossal-AI。默认情况下,我们在安装过程中不会构建 PyTorch 扩展。
pip 安装 colossalai
注意:目前仅支持Linux。
但是,如果您想在安装过程中构建 PyTorch 扩展,可以设置BUILD_EXT=1
。
BUILD_EXT=1 pip 安装 colossalai
否则,CUDA 内核将在您实际需要时在运行时构建。
我们还每周继续向 PyPI 发布夜间版本。这允许您访问主分支中未发布的功能和错误修复。安装可以通过
pip 安装 colossalai-nightly
Colossal-AI 的版本将与存储库的主分支保持一致。如果您遇到任何问题,请随时提出问题。 :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install 。
默认情况下,我们不编译 CUDA/C++ 内核。 ColossalAI 将在运行时构建它们。如果要安装并启用 CUDA 内核融合(使用融合优化器时必须安装):
BUILD_EXT=1 pip 安装 。
对于使用 CUDA 10.2 的用户,您仍然可以从源代码构建 ColossalAI。但需要手动下载cub库并复制到对应目录。
# 克隆存储库git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# 下载 cub 库wget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip 解压1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install 。
(回到顶部)
您可以直接从我们的 DockerHub 页面拉取 docker 镜像。发布后图像会自动上传。
运行以下命令从提供的 Dockerfile 构建 docker 映像。
从头开始构建 Colossal-AI 需要 GPU 支持,在进行
docker build
时需要默认使用 Nvidia Docker Runtime。更多详细信息可以在这里找到。我们建议您直接从我们的项目页面安装 Colossal-AI。
cd ColossalAI docker build -t colossalai ./docker
运行以下命令以交互模式启动 docker 容器。
docker run -ti --gpus all --rm --ipc=主机 colossalai bash
(回到顶部)
加入论坛、Slack 和微信上的 Colossal-AI 社区,与我们的工程团队分享您的建议、反馈和问题。
借鉴BLOOM和Stable Diffusion的成功尝试,欢迎所有有算力、数据集、模型的开发者和合作伙伴加入并共建Colossal-AI社区,为迈向大AI模型时代而努力!
您可以通过以下方式联系我们或参与:
留下一颗星以表达您的喜欢和支持。谢谢!
在 GitHub 上发布问题或提交 PR 请遵循贡献中的指南
将您的正式提案发送至电子邮件 [email protected]
非常感谢我们所有出色的贡献者!
(回到顶部)
我们利用 GitHub Actions 的强大功能来自动化我们的开发、发布和部署工作流程。请查看此文档,了解如何操作自动化工作流程。
这个项目的灵感来自于一些相关项目(一些是我们团队的,一些是其他组织的)。我们要感谢参考列表中列出的这些令人惊叹的项目。
要引用该项目,您可以使用以下 BibTeX 引用。
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI已被NeurIPS、SC、AAAI、PPoPP、CVPR、ISC、NVIDIA GTC等顶级会议接受为官方教程。
(回到顶部)