| Englisch | 中文 |
Greifen Sie sofort auf High-End-On-Demand-Computing für Ihre Forschung zu – keine Einrichtung erforderlich.
Melden Sie sich jetzt an und erhalten Sie 10 $ Guthaben!
Begrenzte akademische Boni:
Laden Sie 1.000 $ auf und erhalten Sie 300 Credits
Laden Sie 500 $ auf und erhalten Sie 100 Credits
[2024/10] Wie erstellt man eine kostengünstige Sora-ähnliche App? Lösungen für Sie
[2024/09] Das Startup HPC-AI Tech aus Singapur sichert sich 50 Millionen US-Dollar in der Serie-A-Finanzierung für den Aufbau des KI-Modells für die Videoerzeugung und der GPU-Plattform
[2024/09] Die Reduzierung der Schulungskosten für große KI-Modelle um 30 % erfordert nur eine einzige Codezeile aus FP8 Mixed Precision Training Upgrades
[2024/06] Open-Sora setzt Open Source fort: Generieren Sie jedes 16-sekündige 720p-HD-Video mit einem Klick, Modellgewichte sofort einsatzbereit
[2024/05] Inferenzgeschwindigkeit großer KI-Modelle verdoppelt, Colossal-Inference Open-Source-Veröffentlichung
[2024/04] Open-Sora stellt wichtiges Upgrade vor: Einführung von Open Source mit Single-Shot-Videogenerierung in 16 Sekunden und 720p-Auflösung
[2024/04] Kostengünstigste Lösungen für Inferenz, Feinabstimmung und Vortraining, zugeschnitten auf die LLaMA3-Serie
Warum Colossal-AI
Merkmale
Kolossale KI für reale Anwendungen
Open-Sora: Offenlegung vollständiger Modellparameter, Trainingsdetails und alles für Sora-ähnliche Videogenerierungsmodelle
Colossal-LLaMA-2: Ein halber Schulungstag mit ein paar hundert Dollar führt zu ähnlichen Ergebnissen wie gängige große Modelle, Open-Source- und kommerziellfreie domänenspezifische LLM-Lösungen
ColossalChat: Eine Open-Source-Lösung zum Klonen von ChatGPT mit einer vollständigen RLHF-Pipeline
AIGC: Beschleunigung der stabilen Diffusion
Biomedizin: Beschleunigung der AlphaFold-Proteinstruktur
Parallele Trainingsdemo
LLaMA 1/2/3
MoE
GPT-3
GPT-2
BERT
Palme
OPT
ViT
Empfehlungssystemmodelle
Trainingsdemo für eine einzelne GPU
GPT-2
Palme
Schlussfolgerung
Kolossale Inferenz: Die Inferenzgeschwindigkeit großer KI-Modelle wurde verdoppelt
Grok-1: 314B-Modell von PyTorch + HuggingFace-Inferenz
SwiftInfer: Durchbricht die Längenbeschränkung von LLM für Konversationen mit mehreren Runden mit einer Beschleunigung von 46 %
Installation
PyPI
Von der Quelle installieren
Verwenden Sie Docker
Gemeinschaft
Mitwirken
Zitieren Sie uns
Prof. James Demmel (UC Berkeley): Colossal-AI macht das Training von KI-Modellen effizient, einfach und skalierbar.
(zurück nach oben)
Colossal-AI stellt Ihnen eine Sammlung paralleler Komponenten zur Verfügung. Unser Ziel ist es, Sie dabei zu unterstützen, Ihre verteilten Deep-Learning-Modelle genauso zu schreiben, wie Sie Ihr Modell auf Ihrem Laptop schreiben. Wir bieten benutzerfreundliche Tools, um verteiltes Training und Inferenz in wenigen Zeilen zu starten.
Parallelitätsstrategien
Datenparallelität
Pipeline-Parallelität
1D-, 2D-, 2,5D-, 3D-Tensor-Parallelität
Sequenzparallelität
Zero Redundancy Optimizer (ZeRO)
Autoparallelität
Heterogenes Speichermanagement
PatrickStar
Freundliche Nutzung
Parallelität basierend auf der Konfigurationsdatei
(zurück nach oben)
Open-Sora: Offenlegung vollständiger Modellparameter, Trainingsdetails und alles für Sora-ähnliche Videogenerierungsmodelle [Code] [Blog] [Modellgewichte] [Demo] [GPU Cloud Playground] [OpenSora-Bild]
(zurück nach oben)
[GPU Cloud Playground] [LLaMA3-Bild]
7B: Ein halber Schulungstag mit ein paar hundert Dollar führt zu ähnlichen Ergebnissen wie gängige große Modelle, Open-Source- und kommerziellfreie domänenspezifische LLM-Lösungen. [Code] [Blog] [HuggingFace-Modellgewichte] [Modelscope-Modellgewichte]
13B: Konstruieren Sie ein raffiniertes 13B-Privatmodell für nur 5.000 USD. [Code] [Blog] [HuggingFace-Modellgewichte] [Modelscope-Modellgewichte]
Modell | Rückgrat | Verbrauchte Token | MMLU (5-Schuss) | CMMLU (5-Schuss) | AGIEval (5-Schuss) | GAOKAO (0-Schuss) | CEval (5-Schuss) |
---|---|---|---|---|---|---|---|
Baichuan-7B | - | 1,2T | 42,32 (42,30) | 44,53 (44,02) | 38,72 | 36,74 | 42,80 |
Baichuan-13B-Basis | - | 1,4T | 50,51 (51,60) | 55,73 (55,30) | 47,20 | 51,41 | 53,60 |
Baichuan2-7B-Basis | - | 2,6T | 46,97 (54,16) | 57,67 (57,07) | 45,76 | 52,60 | 54,00 |
Baichuan2-13B-Basis | - | 2,6T | 54,84 (59,17) | 62,62 (61,97) | 52.08 | 58,25 | 58.10 |
ChatGLM-6B | - | 1,0T | 39,67 (40,63) | 41,17 (-) | 40.10 | 36,53 | 38,90 |
ChatGLM2-6B | - | 1,4T | 44,74 (45,46) | 49,40 (-) | 46,36 | 45,49 | 51,70 |
PraktikantLM-7B | - | 1,6T | 46,70 (51,00) | 52,00 (-) | 44,77 | 61,64 | 52,80 |
Qwen-7B | - | 2,2T | 54,29 (56,70) | 56,03 (58,80) | 52,47 | 56,42 | 59,60 |
Lama-2-7B | - | 2,0T | 44,47 (45,30) | 32,97 (-) | 32,60 | 25.46 | - |
Linly-AI/Chinesisch-LLaMA-2-7B-hf | Lama-2-7B | 1,0T | 37,43 | 29.92 | 32.00 | 27.57 | - |
wenge-research/yayi-7b-llama2 | Lama-2-7B | - | 38,56 | 31.52 | 30,99 | 25,95 | - |
ziqingyang/chinesisches-lama-2-7b | Lama-2-7B | - | 33,86 | 34,69 | 34,52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | Lama-2-7B | 0,3T | 43,73 | 42.04 | 37,64 | 30.61 | - |
LinkSoul/Chinese-Llama-2-7b | Lama-2-7B | - | 48,41 | 38.31 | 38,45 | 27.72 | - |
FlagAlpha/Atom-7B | Lama-2-7B | 0,1T | 49,96 | 41.10 | 39,83 | 33.00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | Lama-13B | 0,11T | 50,25 | 40,99 | 40.04 | 30.54 | - |
Kolossal-LLaMA-2-7b-Basis | Lama-2-7B | 0,0085T | 53.06 | 49,89 | 51,48 | 58,82 | 50.2 |
Kolossal-LLaMA-2-13b-Basis | Lama-2-13B | 0,025T | 56,42 | 61,80 | 54,69 | 69,53 | 60.3 |
ColossalChat: Eine Open-Source-Lösung zum Klonen von ChatGPT mit einer vollständigen RLHF-Pipeline. [Code] [Blog] [Demo] [Tutorial]
Bis zu 10-mal schneller für das RLHF PPO Stage3-Training
Bis zu 7,73-mal schneller für Einzelserver-Training und 1,42-mal schneller für Einzel-GPU-Inferenz
Bis zu 10,3-faches Wachstum der Modellkapazität auf einer GPU
Für einen Mini-Demo-Trainingsprozess sind nur 1,62 GB GPU-Speicher erforderlich (jede GPU der Verbraucherklasse).
Erhöhen Sie die Kapazität des Feinabstimmungsmodells um das bis zu 3,7-fache auf einer einzigen GPU
Halten Sie eine ausreichend hohe Laufgeschwindigkeit ein
(zurück nach oben)
Beschleunigung von AIGC-Modellen (AI-Generated Content) wie Stable Diffusion v1 und Stable Diffusion v2.
Schulung: Reduzieren Sie den Stable Diffusion-Speicherverbrauch um das bis zu 5,6-fache und die Hardwarekosten um das bis zu 46-fache (von A100 bis RTX3060).
DreamBooth-Feinabstimmung: Personalisieren Sie Ihr Modell mit nur 3–5 Bildern des gewünschten Motivs.
Inferenz: Reduzieren Sie den Speicherverbrauch der Inferenz-GPU um das 2,5-fache.
(zurück nach oben)
Beschleunigung der AlphaFold-Proteinstruktur
FastFold: Beschleunigung des Trainings und der Inferenz auf GPU-Clustern, schnellere Datenverarbeitung, Inferenzsequenz mit mehr als 10.000 Resten.
FastFold mit Intel: 3-fache Inferenzbeschleunigung und 39 % Kostenreduzierung.
xTrimoMultimer: Beschleunigung der Strukturvorhersage von Proteinmonomeren und -multimeren um das 11-fache.
(zurück nach oben)
70-Milliarden-Parameter-LLaMA3-Modelltraining um 18 % beschleunigt [Code] [GPU Cloud Playground] [LLaMA3-Bild]
70-Milliarden-Parameter-LLaMA2-Modelltraining um 195 % beschleunigt [Code] [Blog]
Vortraining großer Modelle mit 65 Milliarden Parametern um 38 % beschleunigt [Code] [Blog]
Verbesserte MoE-Parallelität, Open-Source-MoE-Modelltraining kann 9-mal effizienter sein [Code] [Blog]
Sparen Sie 50 % GPU-Ressourcen und 10,7 % Beschleunigung
11-mal geringerer GPU-Speicherverbrauch und superlineare Skalierungseffizienz mit Tensor-Parallelität
24x größere Modellgröße bei gleicher Hardware
über 3x Beschleunigung
2x schnelleres Training oder 50 % längere Sequenzlänge
PaLM-colossalai: Skalierbare Implementierung des Pathways Language Model (PaLM) von Google.
Open Pretrained Transformer (OPT), ein von Meta veröffentlichtes KI-Sprachmodell mit 175 Milliarden Parametern, das KI-Programmierer aufgrund öffentlicher vorab trainierter Modellgewichte dazu anregt, verschiedene nachgelagerte Aufgaben und Anwendungsbereitstellungen auszuführen.
45 % schnellere OPT-Feinabstimmung bei geringen Leitungskosten. [Beispiel] [Online-Bereitstellung]
Weitere Informationen finden Sie in unserer Dokumentation und unseren Beispielen.
14-mal größere Batch-Größe und 5-mal schnelleres Training für Tensor-Parallelität = 64
Cached Embedding: Nutzen Sie den Software-Cache, um größere Einbettungstabellen mit einem kleineren GPU-Speicherbudget zu trainieren.
(zurück nach oben)
20x größere Modellgröße bei gleicher Hardware
120x größere Modellgröße auf der gleichen Hardware (RTX 3080)
34x größere Modellgröße bei gleicher Hardware
(zurück nach oben)
In einigen Fällen verdoppelte sich die Inferenzgeschwindigkeit großer KI-Modelle im Vergleich zur Offline-Inferenzleistung von vLLM. [Code] [Blog] [GPU Cloud Playground] [LLaMA3-Bild]
314 Milliarden Parameter Grok-1-Inferenz um das 3,8-fache beschleunigt, eine benutzerfreundliche Python + PyTorch + HuggingFace-Version für Inferenz.
[Code] [Blog] [HuggingFace Grok-1 PyTorch-Modellgewichte] [ModelScope Grok-1 PyTorch-Modellgewichte]
SwiftInfer: Inferenzleistung um 46 % verbessert, Open-Source-Lösung durchbricht die Längenbeschränkung von LLM für Mehrrundengespräche
(zurück nach oben)
Anforderungen:
PyTorch >= 2.2
Python >= 3.7
CUDA >= 11,0
NVIDIA GPU-Rechenfähigkeit >= 7.0 (V100/RTX20 und höher)
Linux-Betriebssystem
Wenn bei der Installation Probleme auftreten, möchten Sie möglicherweise ein Problem in diesem Repository melden.
Sie können Colossal-AI ganz einfach mit dem folgenden Befehl installieren. Standardmäßig erstellen wir während der Installation keine PyTorch-Erweiterungen.
pip install colossalai
Hinweis: Derzeit wird nur Linux unterstützt.
Wenn Sie jedoch die PyTorch-Erweiterungen während der Installation erstellen möchten, können Sie BUILD_EXT=1
festlegen.
BUILD_EXT=1 pip install colossalai
Andernfalls werden CUDA-Kernel zur Laufzeit erstellt, wenn Sie sie tatsächlich benötigen.
Außerdem veröffentlichen wir weiterhin jede Woche die nächtliche Version für PyPI. Dadurch haben Sie Zugriff auf die unveröffentlichten Funktionen und Fehlerbehebungen im Hauptzweig. Die Installation kann über erfolgen
pip install colossalai-nightly
Die Version von Colossal-AI wird mit dem Hauptzweig des Repositorys übereinstimmen. Wenn Sie auf Probleme stoßen, können Sie gerne ein Problem ansprechen. :) :)
Git-Klon https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install .
Standardmäßig kompilieren wir keine CUDA/C++-Kernel. ColossalAI erstellt sie zur Laufzeit. Wenn Sie CUDA Kernel Fusion installieren und aktivieren möchten (obligatorische Installation bei Verwendung des Fused Optimizer):
BUILD_EXT=1 pip install .
Für Benutzer mit CUDA 10.2 können Sie ColossalAI weiterhin aus dem Quellcode erstellen. Sie müssen jedoch die Cub-Bibliothek manuell herunterladen und in das entsprechende Verzeichnis kopieren.
# Klonen Sie das Repositorygit-Klon https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# laden Sie das Cub-Bibliothekswget herunter https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip 1.8.0.zip entpacken cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install .
(zurück nach oben)
Sie können das Docker-Image direkt von unserer DockerHub-Seite abrufen. Das Bild wird bei der Veröffentlichung automatisch hochgeladen.
Führen Sie den folgenden Befehl aus, um ein Docker-Image aus der bereitgestellten Docker-Datei zu erstellen.
Das Erstellen von Colossal-AI von Grund auf erfordert GPU-Unterstützung. Sie müssen Nvidia Docker Runtime als Standard verwenden, wenn Sie
docker build
durchführen. Weitere Details finden Sie hier. Wir empfehlen Ihnen, Colossal-AI direkt von unserer Projektseite aus zu installieren.
CD ColossalAI docker build -t colossalai ./docker
Führen Sie den folgenden Befehl aus, um den Docker-Container im interaktiven Modus zu starten.
Docker run -ti --gpus all --rm --ipc=host colossalai bash
(zurück nach oben)
Treten Sie der Colossal-AI-Community im Forum, Slack und WeChat (微信) bei, um Ihre Vorschläge, Ihr Feedback und Ihre Fragen mit unserem Engineering-Team zu teilen.
Bezugnehmend auf die erfolgreichen Versuche von BLOOM und Stable Diffusion sind alle Entwickler und Partner mit Rechenleistung, Datensätzen und Modellen herzlich willkommen, sich der Colossal-AI-Community anzuschließen und sie aufzubauen, um das Zeitalter der großen KI-Modelle herbeizuführen!
Sie können uns kontaktieren oder auf folgende Weise teilnehmen:
Hinterlassen Sie einen Stern, um Ihr Gefallen und Ihre Unterstützung zu zeigen. Danke!
Wenn Sie ein Problem veröffentlichen oder eine PR auf GitHub einreichen, befolgen Sie die Richtlinie unter „Mitwirken“.
Senden Sie Ihr offizielles Angebot per E-Mail an [email protected]
Vielen Dank an alle unsere großartigen Mitwirkenden!
(zurück nach oben)
Wir nutzen die Leistungsfähigkeit von GitHub Actions, um unsere Entwicklungs-, Release- und Bereitstellungsworkflows zu automatisieren. Bitte lesen Sie in dieser Dokumentation nach, wie die automatisierten Arbeitsabläufe funktionieren.
Dieses Projekt ist von einigen verwandten Projekten inspiriert (einige von unserem Team und andere von anderen Organisationen). Wir möchten diese großartigen Projekte wie in der Referenzliste aufgeführt würdigen.
Um dieses Projekt zu zitieren, können Sie das folgende BibTeX-Zitat verwenden.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI wurde von den Top-Konferenzen NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC usw. als offizielles Tutorial akzeptiert.
(zurück nach oben)