|英語 | 中国語 |
研究用のハイエンドのオンデマンド コンピューティングに即座にアクセスできます。セットアップは必要ありません。
今すぐサインアップして 10 ドルのクレジットを獲得しましょう!
限定的なアカデミックボーナス:
1,000 ドルをチャージすると 300 クレジットを受け取ります
500 ドルをチャージすると 100 クレジットを受け取ります
[2024/10] 低コストの Sora 風のアプリを構築するにはどうすればよいですか?あなたのためのソリューション
[2024/09] シンガポールのスタートアップ HPC-AI Tech、ビデオ生成 AI モデルと GPU プラットフォームを構築するシリーズ A 資金で 5,000 万ドルを確保
[2024/09] AI 大規模モデルのトレーニング コストを 30% 削減するには、FP8 混合精度トレーニングのアップグレードからの 1 行のコードのみが必要です
[2024/06] Open-Sora はオープンソースを継続: ワンクリックで 16 秒の 720p HD ビデオを生成、すぐに使用できるモデルの重み
[2024/05] 大規模 AI モデルの推論速度が 2 倍になり、巨大な推論のオープンソースがリリース
[2024/04] Open-Sora がメジャー アップグレードを発表: シングルショット 16 秒ビデオ生成と 720p 解像度でオープンソースを採用
[2024/04] LLaMA3 シリーズに合わせた、推論、微調整、事前トレーニングのための最もコスト効率の高いソリューション
なぜColossal AIなのか
特徴
現実世界のアプリケーションのための Colossal-AI
Open-Sora: 完全なモデル パラメーター、トレーニングの詳細、Sora のようなビデオ生成モデルのすべてを明らかに
Colossal-LLaMA-2: 数百ドルを使用した半日のトレーニングで、主流の大規模モデル、オープンソース、商用フリーのドメイン固有 Llm ソリューションと同様の結果が得られる
ColossalChat: 完全な RLHF パイプラインを使用して ChatGPT を複製するためのオープンソース ソリューション
AIGC:安定普及の加速
生物医学: AlphaFold タンパク質構造の加速
並行トレーニングのデモ
ラマ 1/2/3
教育省
GPT-3
GPT-2
バート
パルム
オプト
ViT
推奨システムモデル
シングル GPU トレーニング デモ
GPT-2
パルム
推論
Colossal-Inference: 大規模な AI モデルの推論速度が 2 倍に
Grok-1: PyTorch + HuggingFace Inference の 314B モデル
SwiftInfer: 46% の高速化でマルチラウンド会話の LLM の長さ制限を突破
インストール
PyPI
ソースからインストール
Docker を使用する
コミュニティ
貢献する
引用してください
James Demmel 教授 (カリフォルニア大学バークレー校): Colossal-AI により、AI モデルのトレーニングが効率的、簡単、スケーラブルになります。
(トップに戻る)
Colossal-AI は、並列コンポーネントのコレクションを提供します。私たちは、ラップトップでモデルを作成するのと同じように、分散深層学習モデルを作成できるようにサポートすることを目指しています。分散トレーニングと推論を数行で開始できるユーザーフレンドリーなツールを提供します。
並列化戦略
データの並列処理
パイプラインの並列処理
1D、2D、2.5D、3D テンソル並列処理
シーケンスの並列性
ゼロ冗長オプティマイザー (ZeRO)
自動並列処理
異種メモリ管理
パトリックスター
フレンドリーな使い方
構成ファイルに基づく並列処理
(トップに戻る)
Open-Sora:Sora のようなビデオ生成モデルの完全なモデル パラメーター、トレーニングの詳細、およびすべてを明らかにする [コード] [ブログ] [モデルの重み] [デモ] [GPU クラウド プレイグラウンド] [OpenSora イメージ]
(トップに戻る)
【GPUクラウドプレイグラウンド】 【LLaMA3イメージ】
7B: 数百ドルを使用した半日トレーニングでは、主流の大規模モデル、オープンソースで商用フリーのドメイン固有 LLM ソリューションと同様の結果が得られます。 [コード] [ブログ] [HuggingFace モデルの重み] [Modelscope モデルの重み]
13B: わずか 5000 ドルで洗練された 13B プライベート モデルを構築します。 [コード] [ブログ] [HuggingFace モデルの重み] [Modelscope モデルの重み]
モデル | バックボーン | 消費されたトークン | MMLU (5 ショット) | CMMLU (5 ショット) | AGIEval(5ショット) | ガオカオ(0発) | CEval(5発) |
---|---|---|---|---|---|---|---|
バイチュアン-7B | - | 1.2T | 42.32 (42.30) | 44.53 (44.02) | 38.72 | 36.74 | 42.80 |
Baichuan-13B-Base | - | 1.4T | 50.51 (51.60) | 55.73 (55.30) | 47.20 | 51.41 | 53.60 |
Baichuan2-7B-Base | - | 2.6T | 46.97 (54.16) | 57.67 (57.07) | 45.76 | 52.60 | 54.00 |
Baichuan2-13B-Base | - | 2.6T | 54.84 (59.17) | 62.62 (61.97) | 52.08 | 58.25 | 58.10 |
チャットGLM-6B | - | 1.0T | 39.67 (40.63) | 41.17 (-) | 40.10 | 36.53 | 38.90 |
チャットGLM2-6B | - | 1.4T | 44.74 (45.46) | 49.40 (-) | 46.36 | 45.49 | 51.70 |
インターンLM-7B | - | 1.6T | 46.70 (51.00) | 52.00(-) | 44.77 | 61.64 | 52.80 |
クウェン-7B | - | 2.2T | 54.29 (56.70) | 56.03 (58.80) | 52.47 | 56.42 | 59.60 |
ラマ-2-7B | - | 2.0T | 44.47 (45.30) | 32.97 (-) | 32.60 | 25.46 | - |
Linly-AI/中国語-LLaMA-2-7B-hf | ラマ-2-7B | 1.0T | 37.43 | 29.92 | 32.00 | 27.57 | - |
wenge-research/yayi-7b-llama2 | ラマ-2-7B | - | 38.56 | 31.52 | 30.99 | 25.95 | - |
子青陽/チャイニーズラマ-2-7b | ラマ-2-7B | - | 33.86 | 34.69 | 34.52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | ラマ-2-7B | 0.3T | 43.73 | 42.04 | 37.64 | 30.61 | - |
LinkSoul/チャイニーズラマ-2-7b | ラマ-2-7B | - | 48.41 | 38.31 | 38.45 | 27.72 | - |
フラッグアルファ/アトム-7B | ラマ-2-7B | 0.1T | 49.96 | 41.10 | 39.83 | 33.00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | ラマ-13B | 0.11T | 50.25 | 40.99 | 40.04 | 30.54 | - |
Colossal-LLaMA-2-7b-base | ラマ-2-7B | 0.0085T | 53.06 | 49.89 | 51.48 | 58.82 | 50.2 |
Colossal-LLaMA-2-13b-base | ラマ-2-13B | 0.025T | 56.42 | 61.80 | 54.69 | 69.53 | 60.3 |
ColossalChat: 完全な RLHF パイプラインを備えた ChatGPT のクローンを作成するためのオープンソース ソリューション。 [コード] [ブログ] [デモ] [チュートリアル]
RLHF PPO Stage3 トレーニングを最大 10 倍高速化
単一サーバーのトレーニングでは最大 7.73 倍、単一 GPU の推論では 1.42 倍高速化
1 つの GPU でモデル容量が最大 10.3 倍に増加
ミニ デモ トレーニング プロセスに必要な GPU メモリは 1.62 GB のみです (コンシューマ グレードの GPU)。
単一 GPU で微調整モデルの容量を最大 3.7 倍に増加
十分に高い走行速度を維持してください
(トップに戻る)
Stable Diffusion v1 や Stable Diffusion v2 などの AIGC (AI 生成コンテンツ) モデルの高速化。
トレーニング: Stable Diffusion のメモリ消費量を最大 5.6 倍、ハードウェア コストを最大 46 倍削減します (A100 から RTX3060 まで)。
DreamBooth の微調整: 目的の被写体の 3 ~ 5 枚の画像を使用してモデルをカスタマイズします。
推論: 推論 GPU メモリ消費量を 2.5 倍に削減します。
(トップに戻る)
AlphaFold タンパク質構造の加速
FastFold: GPU クラスターでのトレーニングと推論の高速化、データ処理の高速化、10000 を超える残基を含む推論シーケンス。
Intel を使用した FastFold: 3 倍の推論高速化と 39% のコスト削減。
xTrimoMultimer: タンパク質モノマーおよびマルチマーの構造予測を 11 倍高速化します。
(トップに戻る)
700 億パラメータの LLaMA3 モデル トレーニングが 18% 高速化 [コード] [GPU クラウド プレイグラウンド] [LLaMA3 イメージ]
700 億パラメータの LLaMA2 モデル トレーニングが 195% 高速化 [コード] [ブログ]
650 億パラメータの大規模モデルの事前トレーニングが 38% 高速化 [コード] [ブログ]
MoE 並列処理の強化、オープンソース MoE モデルのトレーニングは 9 倍効率化できる [コード] [ブログ]
GPU リソースを 50% 節約し、アクセラレーションを 10.7% 節約します。
GPU メモリ消費量が 11 分の 1 に削減され、Tensor Parallelism による超線形のスケーリング効率が実現
同じハードウェア上で 24 倍大きいモデル サイズ
3倍以上の加速
トレーニングが 2 倍高速になり、シーケンスの長さが 50% 長くなります
PaLM-colossalai: Google の Pathways Language Model (PaLM) のスケーラブルな実装。
Meta によってリリースされた 1,750 億パラメータの AI 言語モデルである Open Pretrained Transformer (OPT) は、公開されている事前トレーニング済みモデルの重みにより、AI プログラマーがさまざまな下流タスクやアプリケーション デプロイメントを実行できるようにします。
ラインでの低コストで OPT の微調整を 45% 高速化します。 【例】【オンライン配信】
詳細については、ドキュメントと例をご覧ください。
Tensor Parallelism = 64 のバッチ サイズが 14 倍大きく、トレーニングが 5 倍高速になりました
キャッシュされたエンベディング。ソフトウェア キャッシュを利用して、より少ない GPU メモリ バジェットでより大きなエンベディング テーブルをトレーニングします。
(トップに戻る)
同じハードウェア上で 20 倍大きいモデル サイズ
同じハードウェア (RTX 3080) 上で 120 倍大きいモデル サイズ
同じハードウェア上で 34 倍大きいモデル サイズ
(トップに戻る)
大規模な AI モデルの推論速度は、場合によっては vLLM のオフライン推論パフォーマンスと比較して 2 倍になりました。 [コード] [ブログ] [GPU クラウド プレイグラウンド] [LLaMA3 イメージ]
3,140 億パラメータの Grok-1 推論が 3.8 倍高速化され、推論用の使いやすい Python + PyTorch + HuggingFace バージョン。
[コード] [ブログ] [HuggingFace Grok-1 PyTorch モデルの重み] [ModelScope Grok-1 PyTorch モデルの重み]
SwiftInfer: 推論パフォーマンスが 46% 向上し、オープンソース ソリューションがマルチラウンド会話の LLM の長さ制限を突破
(トップに戻る)
要件:
PyTorch >= 2.2
Python >= 3.7
CUDA >= 11.0
NVIDIA GPU コンピューティング能力 >= 7.0 (V100/RTX20 以降)
Linux OS
インストール中に問題が発生した場合は、このリポジトリで問題を提起することをお勧めします。
Colossal-AIは以下のコマンドで簡単にインストールできます。デフォルトでは、インストール中に PyTorch 拡張機能はビルドされません。
pip インストール colossalai
注: 現時点では Linux のみがサポートされています。
ただし、インストール中に PyTorch 拡張機能をビルドする場合は、 BUILD_EXT=1
設定できます。
BUILD_EXT=1 pip インストール colossalai
そうしないと、CUDA カーネルが実際に必要になったときに実行時にビルドされます。
また、毎週夜間バージョンを PyPI にリリースし続けます。これにより、メイン ブランチの未リリースの機能やバグ修正にアクセスできるようになります。インストールは次の方法で行うことができます
pip install colossalai-nightly
Colossal-AI のバージョンは、リポジトリのメイン ブランチと一致します。問題が発生した場合は、お気軽に問題を提起してください。 :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install 。
デフォルトでは、CUDA/C++ カーネルはコンパイルされません。 ColossalAI は実行時にそれらを構築します。 CUDA カーネル フュージョンをインストールして有効にする場合 (フューズド オプティマイザーを使用する場合は強制インストール):
BUILD_EXT=1 pip インストール。
CUDA 10.2 を使用しているユーザーの場合は、ソースから ColossalAI をビルドできます。ただし、cub ライブラリを手動でダウンロードし、対応するディレクトリにコピーする必要があります。
# リポジトリのクローンを作成しますgit clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# cub ライブラリをダウンロードしますwget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip 1.8.0.zipを解凍します cp -r cub-1.8.0/cub/colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install 。
(トップに戻る)
DockerHub ページから Docker イメージを直接プルできます。画像はリリース時に自動的にアップロードされます。
次のコマンドを実行して、提供された Dockerfile から Docker イメージを構築します。
Colossal-AI を最初から構築するには GPU サポートが必要です。
docker build
実行するときは、Nvidia Docker Runtime をデフォルトとして使用する必要があります。詳細については、こちらをご覧ください。 Colossal-AI をプロジェクト ページから直接インストールすることをお勧めします。
cd ColossalAI docker build -t colossalai ./docker
次のコマンドを実行して、Docker コンテナーを対話モードで起動します。
docker run -ti --gpus all --rm --ipc=host colossalai bash
(トップに戻る)
フォーラム、Slack、WeChat(微信) の Colossal-AI コミュニティに参加して、提案、フィードバック、質問を当社のエンジニアリング チームと共有してください。
BLOOM と Stable Diffusion の成功した試みを参照して、コンピューティング能力、データセット、モデルを持つすべての開発者とパートナーが Colossal-AI コミュニティに参加して構築し、ビッグ AI モデルの時代に向けて努力することを歓迎します。
以下の方法で私たちに連絡したり、参加したりできます。
スターを残して、いいねとサポートを示します。ありがとう!
GitHub で問題を投稿したり、PR を送信したりするには、「貢献」のガイドラインに従ってください。
正式な提案書を [email protected] に電子メールで送信してください。
素晴らしい貢献者の皆様に心より感謝申し上げます。
(トップに戻る)
GitHub Actions の機能を活用して、開発、リリース、デプロイメントのワークフローを自動化します。自動化されたワークフローがどのように操作されるかについては、このドキュメントを参照してください。
このプロジェクトは、いくつかの関連プロジェクト (一部は私たちのチームによるもの、一部は他の組織によるもの) からインスピレーションを受けています。参考文献リストに記載されているこれらの素晴らしいプロジェクトを称賛したいと思います。
このプロジェクトを引用するには、次の BibTeX 引用を使用できます。
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI は、NeurIPS、SC、AAAI、PPoPP、CVPR、ISC、NVIDIA GTC などのトップカンファレンスによって公式チュートリアルとして受け入れられています。
(トップに戻る)