| Anglais | Chine |
Accédez instantanément à des calculs haut de gamme à la demande pour vos recherches, aucune configuration n'est nécessaire.
Inscrivez-vous maintenant et obtenez 10 $ de crédits !
Bonus académiques limités :
Rechargez 1 000 $ et recevez 300 crédits
Rechargez 500 $ et recevez 100 crédits
[2024/10] Comment créer une application de type Sora à faible coût ? Des solutions pour vous
[2024/09] La start-up singapourienne HPC-AI Tech obtient un financement de série A de 50 millions de dollars pour créer le modèle d'IA de génération vidéo et la plate-forme GPU
[2024/09] Réduire de 30 % les coûts de formation des grands modèles d'IA ne nécessite qu'une seule ligne de code provenant des mises à niveau de formation de précision mixte du FP8
[2024/06] Open-Sora continue l'Open Source : générez n'importe quelle vidéo HD 720p de 16 secondes en un seul clic, les poids des modèles sont prêts à l'emploi
[2024/05] Vitesse d'inférence des grands modèles d'IA doublée, version open source d'inférence colossale
[2024/04] Open-Sora dévoile une mise à niveau majeure : adoption de l'Open Source avec génération vidéo en une seule prise de 16 secondes et résolution 720p
[2024/04] Solutions les plus rentables pour l'inférence, le réglage fin et le pré-entraînement, adaptées à la série LLaMA3
Pourquoi Colossal-AI
Caractéristiques
Colossal-AI pour les applications du monde réel
Open-Sora : révélation des paramètres complets du modèle, des détails de la formation et de tout ce qui concerne les modèles de génération vidéo de type Sora
Colossal-LLaMA-2 : une demi-journée de formation utilisant quelques centaines de dollars donne des résultats similaires aux grands modèles grand public, à une solution Llm spécifique à un domaine open source et sans commercial
ColossalChat : une solution open source pour cloner ChatGPT avec un pipeline RLHF complet
AIGC : Accélération de la diffusion stable
Biomédecine : accélération de la structure des protéines AlphaFold
Démo de formation parallèle
LLaMA 1/2/3
Ministère de l'Environnement
GPT-3
GPT-2
BERTE
Palmier
OPTER
ViT
Modèles de système de recommandation
Démo de formation sur un seul GPU
GPT-2
Palmier
Inférence
Inférence colossale : vitesse d'inférence des grands modèles d'IA doublée
Grok-1 : modèle 314B de PyTorch + inférence HuggingFace
SwiftInfer : dépasse la limite de longueur du LLM pour les conversations à plusieurs tours avec une accélération de 46 %
Installation
PyPI
Installer à partir de la source
Utiliser Docker
Communauté
Contribuer
Cite-nous
Professeur James Demmel (UC Berkeley) : Colossal-AI rend la formation des modèles d'IA efficace, simple et évolutive.
(retour en haut)
Colossal-AI fournit pour vous une collection de composants parallèles. Notre objectif est de vous aider à écrire vos modèles d'apprentissage profond distribués, tout comme vous écrivez votre modèle sur votre ordinateur portable. Nous fournissons des outils conviviaux pour démarrer la formation et l'inférence distribuées en quelques lignes.
Stratégies de parallélisme
Parallélisme des données
Parallélisme des pipelines
Parallélisme tensoriel 1D, 2D, 2.5D, 3D
Parallélisme de séquence
Optimiseur de redondance zéro (ZeRO)
Auto-parallélisme
Gestion de la mémoire hétérogène
PatrickStar
Utilisation conviviale
Parallélisme basé sur le fichier de configuration
(retour en haut)
Open-Sora : Révéler les paramètres complets du modèle, les détails de la formation et tout ce qui concerne les modèles de génération vidéo de type Sora [code] [blog] [Poids du modèle] [Démo] [GPU Cloud Playground] [OpenSora Image]
(retour en haut)
[GPU Cloud Playground] [Image LLaMA3]
7B : Une demi-journée de formation utilisant quelques centaines de dollars donne des résultats similaires aux grands modèles grand public, à la solution LLM spécifique à un domaine open source et sans commercial. [code] [blog] [Poids du modèle HuggingFace] [Poids du modèle Modelscope]
13B : Construisez un modèle privé 13B raffiné avec seulement 5 000 USD. [code] [blog] [Poids du modèle HuggingFace] [Poids du modèle Modelscope]
Modèle | Colonne vertébrale | Jetons consommés | MMLU (5 coups) | CMMLU (5 coups) | AGIEval (5 coups) | GAOKAO (0-tir) | CEval (5 coups) |
---|---|---|---|---|---|---|---|
Baichuan-7B | - | 1.2T | 42.32 (42.30) | 44,53 (44,02) | 38,72 | 36,74 | 42,80 |
Base Baichuan-13B | - | 1.4T | 50,51 (51,60) | 55,73 (55,30) | 47.20 | 51.41 | 53,60 |
Baichuan2-7B-Base | - | 2,6T | 46,97 (54,16) | 57,67 (57,07) | 45,76 | 52,60 | 54h00 |
Baichuan2-13B-Base | - | 2,6T | 54,84 (59,17) | 62,62 (61,97) | 52.08 | 58.25 | 58.10 |
ChatGLM-6B | - | 1.0T | 39,67 (40,63) | 41,17 (-) | 40.10 | 36.53 | 38.90 |
ChatGLM2-6B | - | 1.4T | 44,74 (45,46) | 49,40 (-) | 46.36 | 45.49 | 51,70 |
StagiaireLM-7B | - | 1.6T | 46,70 (51,00) | 52,00 (-) | 44,77 | 61,64 | 52,80 |
Qwen-7B | - | 2.2T | 54,29 (56,70) | 56,03 (58,80) | 52.47 | 56.42 | 59.60 |
Lama-2-7B | - | 2.0T | 44.47 (45.30) | 32,97 (-) | 32,60 | 25h46 | - |
Linly-AI/Chinois-LLaMA-2-7B-hf | Lama-2-7B | 1.0T | 37.43 | 29.92 | 32h00 | 27.57 | - |
wenge-research/yayi-7b-llama2 | Lama-2-7B | - | 38.56 | 31.52 | 30,99 | 25,95 | - |
ziqingyang/lama-chinois-2-7b | Lama-2-7B | - | 33,86 | 34,69 | 34.52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | Lama-2-7B | 0,3T | 43.73 | 42.04 | 37,64 | 30.61 | - |
LinkSoul/Chinois-Llama-2-7b | Lama-2-7B | - | 48.41 | 38.31 | 38h45 | 27.72 | - |
DrapeauAlpha/Atom-7B | Lama-2-7B | 0,1T | 49,96 | 41.10 | 39,83 | 33h00 | - |
IDÉE-CCNL/Ziya-LLaMA-13B-v1.1 | Lama-13B | 0,11T | 50.25 | 40,99 | 40.04 | 30.54 | - |
Colossal-LLaMA-2-7b-base | Lama-2-7B | 0.0085T | 53.06 | 49,89 | 51.48 | 58,82 | 50,2 |
Colossal-LLaMA-2-13b-base | Lama-2-13B | 0,025T | 56.42 | 61,80 | 54,69 | 69.53 | 60,3 |
ColossalChat : Une solution open source pour cloner ChatGPT avec un pipeline RLHF complet. [code] [blog] [démo] [tutoriel]
Jusqu'à 10 fois plus rapide pour la formation RLHF PPO Stage3
Jusqu'à 7,73 fois plus rapide pour la formation sur un seul serveur et 1,42 fois plus rapide pour l'inférence sur un seul GPU
Jusqu'à 10,3 fois plus de capacité de modèle sur un GPU
Un mini processus de formation de démonstration ne nécessite que 1,62 Go de mémoire GPU (n'importe quel GPU grand public)
Augmentez la capacité du modèle de réglage fin jusqu'à 3,7 fois sur un seul GPU
Maintenir une vitesse de course suffisamment élevée
(retour en haut)
Accélération des modèles AIGC (AI-Generated Content) tels que Stable Diffusion v1 et Stable Diffusion v2.
Formation : Réduisez la consommation de mémoire à diffusion stable jusqu'à 5,6 fois et le coût matériel jusqu'à 46 fois (de l'A100 au RTX3060).
Réglage précis de DreamBooth : personnalisez votre modèle en utilisant seulement 3 à 5 images du sujet souhaité.
Inférence : Réduisez la consommation de mémoire GPU d’inférence de 2,5x.
(retour en haut)
Accélération de la structure de la protéine AlphaFold
FastFold : accélération de la formation et de l'inférence sur les clusters GPU, traitement des données plus rapide, séquence d'inférence contenant plus de 10 000 résidus.
FastFold avec Intel : accélération d'inférence 3x et réduction des coûts de 39 %.
xTrimoMultimer : accélère de 11x la prédiction de la structure des monomères et des multimères protéiques.
(retour en haut)
Formation du modèle LLaMA3 de 70 milliards de paramètres accélérée de 18 % [code] [GPU Cloud Playground] [Image LLaMA3]
Formation du modèle LLaMA2 de 70 milliards de paramètres accélérée de 195 % [code] [blog]
Pré-entraînement de grands modèles de 65 milliards de paramètres accéléré de 38 % [code] [blog]
Parallélisme MoE amélioré, la formation de modèles MoE open source peut être 9 fois plus efficace [code] [blog]
Économisez 50 % des ressources GPU et 10,7 % d'accélération
Consommation de mémoire GPU 11 fois inférieure et efficacité de mise à l'échelle superlinéaire avec le parallélisme tensoriel
Taille de modèle 24 fois plus grande sur le même matériel
plus de 3x accélération
Entraînement 2 fois plus rapide ou durée de séquence 50 % plus longue
PaLM-colossalai : implémentation évolutive du modèle de langage Pathways (PaLM) de Google.
Open Pretrained Transformer (OPT), un modèle de langage d'IA de 175 milliards de paramètres publié par Meta, qui stimule les programmeurs d'IA à effectuer diverses tâches et déploiements d'applications en aval en raison des poids des modèles publics pré-entraînés.
45 % d'accélération du réglage fin de l'OPT à faible coût dans les lignes. [Exemple] [Service en ligne]
Veuillez consulter notre documentation et nos exemples pour plus de détails.
Taille de lot 14 fois plus grande et formation 5 fois plus rapide pour le parallélisme tensoriel = 64
Embedding en cache : utilisez le cache logiciel pour former des tables d'intégration plus grandes avec un budget de mémoire GPU plus petit.
(retour en haut)
Taille de modèle 20 fois plus grande sur le même matériel
Taille de modèle 120 fois plus grande sur le même matériel (RTX 3080)
Taille de modèle 34 fois plus grande sur le même matériel
(retour en haut)
La vitesse d'inférence des grands modèles d'IA a doublé par rapport aux performances d'inférence hors ligne de vLLM dans certains cas. [code] [blog] [GPU Cloud Playground] [Image LLaMA3]
Inférence Grok-1 de 314 milliards de paramètres accélérée par 3,8x, une version Python + PyTorch + HuggingFace facile à utiliser pour l'inférence.
[code] [blog] [Poids du modèle HuggingFace Grok-1 PyTorch] [Poids du modèle ModelScope Grok-1 PyTorch]
SwiftInfer : performances d'inférence améliorées de 46 %, la solution open source dépasse la limite de longueur du LLM pour les conversations à plusieurs tours
(retour en haut)
Exigences:
PyTorch >= 2.2
Python >= 3,7
CUDA >= 11,0
Capacité de calcul du GPU NVIDIA >= 7.0 (V100/RTX20 et supérieur)
Système d'exploitation Linux
Si vous rencontrez un problème lors de l'installation, vous souhaiterez peut-être soulever un problème dans ce référentiel.
Vous pouvez facilement installer Colossal-AI avec la commande suivante. Par défaut, nous ne créons pas d'extensions PyTorch lors de l'installation.
pip installer colossale
Remarque : seul Linux est pris en charge pour l'instant.
Cependant, si vous souhaitez créer les extensions PyTorch lors de l'installation, vous pouvez définir BUILD_EXT=1
.
BUILD_EXT=1 pip installation colossale
Sinon, les noyaux CUDA seront construits pendant l'exécution lorsque vous en aurez réellement besoin.
Nous continuons également à publier la version nocturne sur PyPI chaque semaine. Cela vous permet d'accéder aux fonctionnalités inédites et aux corrections de bugs dans la branche principale. L'installation peut être effectuée via
pip install colossalai-nightly
La version de Colossal-AI sera conforme à la branche principale du référentiel. N'hésitez pas à soulever un problème si vous rencontrez des problèmes. :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install .
Par défaut, nous ne compilons pas les noyaux CUDA/C++. ColossalAI les construira pendant l'exécution. Si vous souhaitez installer et activer la fusion du noyau CUDA (installation obligatoire lors de l'utilisation de l'optimiseur fusionné) :
BUILD_EXT=1 pip installation.
Pour les utilisateurs de CUDA 10.2, vous pouvez toujours créer ColossalAI à partir des sources. Cependant, vous devez télécharger manuellement la bibliothèque cub et la copier dans le répertoire correspondant.
# cloner le référentiel git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# télécharger la bibliothèque cubwget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip décompresser 1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install .
(retour en haut)
Vous pouvez directement extraire l'image Docker de notre page DockerHub. L'image est automatiquement téléchargée lors de sa sortie.
Exécutez la commande suivante pour créer une image Docker à partir du Dockerfile fourni.
Construire Colossal-AI à partir de zéro nécessite la prise en charge du GPU, vous devez utiliser Nvidia Docker Runtime par défaut lors de la
docker build
. Plus de détails peuvent être trouvés ici. Nous vous recommandons d'installer Colossal-AI directement depuis notre page de projet.
cd ColossalAI docker build -t colossalai ./docker
Exécutez la commande suivante pour démarrer le conteneur Docker en mode interactif.
docker run -ti --gpus all --rm --ipc=host colossalai bash
(retour en haut)
Rejoignez la communauté Colossal-AI sur Forum, Slack et WeChat (微信) pour partager vos suggestions, commentaires et questions avec notre équipe d'ingénierie.
En référence aux tentatives réussies de BLOOM et Stable Diffusion, tous les développeurs et partenaires disposant de puissances de calcul, d'ensembles de données et de modèles sont invités à rejoindre et à construire la communauté Colossal-AI, en faisant des efforts pour l'ère des grands modèles d'IA !
Vous pouvez nous contacter ou participer des manières suivantes :
Laisser une étoile pour montrer votre sympathie et votre soutien. Merci!
Publier un problème ou soumettre un PR sur GitHub suivez les directives dans Contribuer
Envoyez votre proposition officielle à l'e-mail [email protected]
Merci beaucoup à tous nos incroyables contributeurs !
(retour en haut)
Nous exploitons la puissance de GitHub Actions pour automatiser nos workflows de développement, de publication et de déploiement. Veuillez consulter cette documentation sur la façon dont les flux de travail automatisés sont exploités.
Ce projet s'inspire de certains projets connexes (certains de notre équipe et d'autres d'autres organisations). Nous aimerions créditer ces projets étonnants tels qu’ils sont répertoriés dans la liste de référence.
Pour citer ce projet, vous pouvez utiliser la citation BibTeX suivante.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI a été accepté comme tutoriel officiel par les principales conférences NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC, etc.
(retour en haut)