| 영어 | 중국어 |
연구를 위한 고급 주문형 컴퓨팅에 즉시 액세스하세요. 설정이 필요하지 않습니다.
지금 가입하고 $10 크레딧을 받으세요!
제한된 학업 보너스:
$1,000를 충전하고 300크레딧을 받으세요.
$500를 충전하고 100크레딧을 받으세요
[2024/10] 소라같은 저비용 앱은 어떻게 구축하나요? 당신을 위한 솔루션
[2024/09] 싱가포르 스타트업 HPC-AI Tech, 비디오 세대 AI 모델 및 GPU 플랫폼 구축을 위해 시리즈 A 자금 5천만 달러 확보
[2024/09] AI 대형 모델 학습 비용을 30% 절감하려면 FP8 혼합 정밀 학습 업그레이드에서 단 한 줄의 코드만 있으면 됩니다.
[2024/06] Open-Sora, 오픈 소스 지속: 원클릭으로 16초 길이의 720p HD 비디오 생성, 모델 가중치 사용 가능
[2024/05] 대형 AI 모델 추론 속도 2배, 거대 추론 오픈소스 출시
[2024/04] Open-Sora, 대대적인 업그레이드 공개: 싱글샷 16초 비디오 생성 및 720p 해상도로 오픈소스 수용
[2024/04] LLaMA3 시리즈에 맞춤화된 추론, 미세 조정 및 사전 훈련을 위한 가장 비용 효율적인 솔루션
왜 거대 AI인가?
특징
실제 애플리케이션을 위한 Colossal-AI
Open-Sora: Sora와 유사한 비디오 생성 모델을 위한 완전한 모델 매개변수, 교육 세부 정보 및 모든 것을 공개합니다.
Colossal-LLaMA-2: 수백 달러를 사용한 반나절 훈련으로 주류 대형 모델, 오픈 소스 및 상업용 무료 도메인 특정 Llm 솔루션과 유사한 결과를 얻을 수 있습니다.
ColossalChat: 완전한 RLHF 파이프라인을 갖춘 ChatGPT 복제를 위한 오픈 소스 솔루션
AIGC: 안정확산 가속화
생물의학: AlphaFold 단백질 구조의 가속화
병렬 교육 데모
라마 1/2/3
환경부
GPT-3
GPT-2
버트
손바닥 안에 감추다
고르다
ViT
추천 시스템 모델
단일 GPU 교육 데모
GPT-2
손바닥 안에 감추다
추론
거대 추론: 대규모 AI 모델 추론 속도가 두 배로 향상됨
Grok-1: PyTorch의 314B 모델 + HuggingFace 추론
SwiftInfer: 46% 가속으로 다단계 대화에 대한 LLM의 길이 제한을 깨뜨림
설치
PyPI
소스에서 설치
도커 사용
지역 사회
기여
우리를 인용
James Demmel 교수(UC Berkeley): Colossal-AI는 AI 모델 교육을 효율적이고 쉽고 확장 가능하게 만듭니다.
(맨 위로)
Colossal-AI는 병렬 구성요소 모음을 제공합니다. 우리는 노트북에서 모델을 작성하는 것처럼 분산 딥 러닝 모델을 작성할 수 있도록 지원하는 것을 목표로 합니다. 우리는 몇 줄만으로 분산 훈련과 추론을 시작할 수 있는 사용자 친화적인 도구를 제공합니다.
병렬성 전략
데이터 병렬성
파이프라인 병렬성
1D, 2D, 2.5D, 3D 텐서 병렬성
시퀀스 병렬성
제로 중복 최적화 프로그램(ZeRO)
자동 병렬성
이기종 메모리 관리
패트릭스타
친절한 사용법
구성 파일을 기반으로 한 병렬성
(맨 위로)
Open-Sora: Sora와 유사한 비디오 생성 모델을 위한 완전한 모델 매개변수, 교육 세부 정보 및 모든 것을 공개 [코드] [블로그] [모델 가중치] [데모] [GPU 클라우드 놀이터] [OpenSora 이미지]
(맨 위로)
[GPU 클라우드 플레이그라운드] [LLaMA3 이미지]
7B: 수백 달러를 사용하여 반나절 동안 훈련하면 주류 대형 모델, 오픈 소스 및 상업용 무료 도메인별 LLM 솔루션과 유사한 결과가 나옵니다. [코드] [블로그] [HuggingFace 모델 가중치] [Modelscope 모델 가중치]
13B: 단 $5000 USD로 세련된 13B 프라이빗 모델을 구축합니다. [코드] [블로그] [HuggingFace 모델 가중치] [Modelscope 모델 가중치]
모델 | 등뼈 | 소비된 토큰 | MMLU(5발) | CMMLU(5발) | AGI평가(5발) | 가오카오(0샷) | CEval(5발) |
---|---|---|---|---|---|---|---|
백천-7B | - | 1.2T | 42.32 (42.30) | 44.53 (44.02) | 38.72 | 36.74 | 42.80 |
Baichuan-13B-기지 | - | 1.4T | 50.51 (51.60) | 55.73 (55.30) | 47.20 | 51.41 | 53.60 |
Baichuan2-7B-기지 | - | 2.6T | 46.97 (54.16) | 57.67 (57.07) | 45.76 | 52.60 | 54.00 |
Baichuan2-13B-기지 | - | 2.6T | 54.84 (59.17) | 62.62 (61.97) | 52.08 | 58.25 | 58.10 |
채팅GLM-6B | - | 1.0T | 39.67 (40.63) | 41.17 (-) | 40.10 | 36.53 | 38.90 |
채팅GLM2-6B | - | 1.4T | 44.74 (45.46) | 49.40 (-) | 46.36 | 45.49 | 51.70 |
인턴LM-7B | - | 1.6T | 46.70 (51.00) | 52.00 (-) | 44.77 | 61.64 | 52.80 |
Qwen-7B | - | 2.2T | 54.29 (56.70) | 56.03 (58.80) | 52.47 | 56.42 | 59.60 |
라마-2-7B | - | 2.0T | 44.47 (45.30) | 32.97 (-) | 32.60 | 25.46 | - |
Linly-AI/중국어-LLaMA-2-7B-hf | 라마-2-7B | 1.0T | 37.43 | 29.92 | 32.00 | 27.57 | - |
wenge-연구/yayi-7b-llama2 | 라마-2-7B | - | 38.56 | 31.52 | 30.99 | 25.95 | - |
ziqingyang/중국어-라마-2-7b | 라마-2-7B | - | 33.86 | 34.69 | 34.52 | 18.25 | 34.2 |
TigerResearch/tigerbot-7b-base | 라마-2-7B | 0.3T | 43.73 | 42.04 | 37.64 | 30.61 | - |
LinkSoul/중국어-Llama-2-7b | 라마-2-7B | - | 48.41 | 38.31 | 38.45 | 27.72 | - |
FlagAlpha/Atom-7B | 라마-2-7B | 0.1T | 49.96 | 41.10 | 39.83 | 33.00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | 라마-13B | 0.11T | 50.25 | 40.99 | 40.04 | 30.54 | - |
Colossal-LLaMA-2-7b-베이스 | 라마-2-7B | 0.0085T | 53.06 | 49.89 | 51.48 | 58.82 | 50.2 |
Colossal-LLaMA-2-13b-베이스 | 라마-2-13B | 0.025T | 56.42 | 61.80 | 54.69 | 69.53 | 60.3 |
ColossalChat: 완전한 RLHF 파이프라인으로 ChatGPT를 복제하기 위한 오픈 소스 솔루션입니다. [코드] [블로그] [데모] [튜토리얼]
RLHF PPO Stage3 교육의 경우 최대 10배 더 빨라짐
단일 서버 훈련의 경우 최대 7.73배, 단일 GPU 추론의 경우 1.42배 더 빠릅니다.
하나의 GPU에서 모델 용량 최대 10.3배 증가
미니 데모 교육 프로세스에는 1.62GB의 GPU 메모리만 필요합니다(모든 소비자급 GPU).
단일 GPU에서 미세 조정 모델의 용량을 최대 3.7배 늘립니다.
충분히 높은 주행 속도를 유지하세요.
(맨 위로)
Stable Diffusion v1 및 Stable Diffusion v2와 같은 AIGC(AI 생성 콘텐츠) 모델의 가속화.
교육: Stable Diffusion 메모리 소비를 최대 5.6배까지 줄이고 하드웨어 비용을 최대 46배까지 줄입니다(A100에서 RTX3060까지).
DreamBooth 미세 조정: 원하는 피사체의 이미지 3~5개만 사용하여 모델을 맞춤화하세요.
추론: 추론 GPU 메모리 소비를 2.5배 줄입니다.
(맨 위로)
AlphaFold 단백질 구조의 가속화
FastFold: GPU 클러스터에 대한 훈련 및 추론 가속화, 더 빠른 데이터 처리, 10000개 이상의 잔여물을 포함하는 추론 시퀀스.
Intel 기반 FastFold: 추론 가속이 3배 향상되고 비용이 39% 절감됩니다.
xTrimoMultimer: 단백질 단량체 및 다량체의 구조 예측을 11배 가속화합니다.
(맨 위로)
700억 매개변수 LLaMA3 모델 훈련 18% 가속화 [코드] [GPU 클라우드 플레이그라운드] [LLaMA3 이미지]
700억 개의 매개변수 LLaMA2 모델 훈련이 195% 가속화됨 [코드] [블로그]
650억 매개변수 대형 모델 사전 훈련이 38% 가속화됨 [코드] [블로그]
향상된 MoE 병렬성, 오픈 소스 MoE 모델 교육은 9배 더 효율적일 수 있습니다. [코드] [블로그]
GPU 리소스 50% 절약 및 가속 10.7% 절약
11배 더 낮은 GPU 메모리 소비 및 Tensor Parallelism을 통한 초선형 확장 효율성
동일한 하드웨어에서 24배 더 큰 모델 크기
3배 이상의 가속
2배 더 빠른 훈련 또는 50% 더 긴 시퀀스 길이
PaLM-colossalai: Google PaLM(진로 언어 모델)의 확장 가능한 구현입니다.
OPT(Open Pretrained Transformer)는 Meta에서 출시한 1,750억 매개변수 AI 언어 모델로, 공개 사전 훈련된 모델 가중치로 인해 AI 프로그래머가 다양한 다운스트림 작업 및 애플리케이션 배포를 수행하도록 자극합니다.
라인에서 저렴한 비용으로 OPT 미세 조정 속도를 45% 향상시킵니다. [예시] [온라인 검색]
자세한 내용은 설명서와 예제를 참조하세요.
Tensor Parallelism을 위한 14배 더 큰 배치 크기 및 5배 더 빠른 교육 = 64
캐시된 임베딩은 소프트웨어 캐시를 활용하여 더 작은 GPU 메모리 예산으로 더 큰 임베딩 테이블을 교육합니다.
(맨 위로)
동일한 하드웨어에서 20배 더 큰 모델 크기
동일한 하드웨어(RTX 3080)에서 120배 더 큰 모델 크기
동일한 하드웨어에서 34배 더 큰 모델 크기
(맨 위로)
경우에 따라 vLLM의 오프라인 추론 성능에 비해 대규모 AI 모델 추론 속도가 2배 향상되었습니다. [코드] [블로그] [GPU 클라우드 플레이그라운드] [LLaMA3 이미지]
3140억 개의 매개변수 Grok-1 추론이 3.8배로 가속화되었으며, 추론을 위한 사용하기 쉬운 Python + PyTorch + HuggingFace 버전입니다.
[코드] [블로그] [HuggingFace Grok-1 PyTorch 모델 가중치] [ModelScope Grok-1 PyTorch 모델 가중치]
SwiftInfer: 추론 성능이 46% 향상되었으며 오픈 소스 솔루션은 다단계 대화에 대한 LLM의 길이 제한을 초과했습니다.
(맨 위로)
요구사항:
파이토치 >= 2.2
파이썬 >= 3.7
쿠다 >= 11.0
NVIDIA GPU 컴퓨팅 성능 >= 7.0(V100/RTX20 이상)
리눅스 OS
설치 중에 문제가 발생하면 이 저장소에 문제를 제기할 수 있습니다.
다음 명령을 사용하면 Colossal-AI를 쉽게 설치할 수 있습니다. 기본적으로 우리는 설치 중에 PyTorch 확장을 빌드하지 않습니다.
pip 설치 colossalai
참고: 현재는 Linux만 지원됩니다.
그러나 설치 중에 PyTorch 확장을 빌드하려면 BUILD_EXT=1
설정할 수 있습니다.
BUILD_EXT=1 pip 설치 거대화
그렇지 않으면 CUDA 커널이 실제로 필요할 때 런타임 중에 빌드됩니다.
우리는 또한 매주 Nightly 버전을 PyPI에 계속 출시하고 있습니다. 이를 통해 메인 브랜치에서 출시되지 않은 기능과 버그 수정에 액세스할 수 있습니다. 설치는 다음을 통해 이루어질 수 있습니다.
pip 설치 colossalai-nightly
Colossal-AI 버전은 저장소의 주요 분기와 일치합니다. 문제가 발생하면 언제든지 문제를 제기해 주세요. :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install .
기본적으로 우리는 CUDA/C++ 커널을 컴파일하지 않습니다. ColossalAI는 런타임 중에 이를 빌드합니다. CUDA 커널 퓨전을 설치하고 활성화하려는 경우(퓨즈된 최적화 프로그램 사용 시 필수 설치):
BUILD_EXT=1 pip 설치.
CUDA 10.2 사용자의 경우 소스에서 ColossalAI를 계속 빌드할 수 있습니다. 단, cub 라이브러리를 수동으로 다운로드하여 해당 디렉터리에 복사해야 합니다.
# 저장소 복제git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# 새끼 라이브러리 다운로드wget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip 1.8.0.zip 압축 풀기 cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip 설치 .
(맨 위로)
DockerHub 페이지에서 Docker 이미지를 직접 가져올 수 있습니다. 이미지는 출시 시 자동으로 업로드됩니다.
제공된 Dockerfile에서 Docker 이미지를 빌드하려면 다음 명령을 실행하세요.
Colossal-AI를 처음부터 빌드하려면 GPU 지원이 필요하므로
docker build
수행할 때 Nvidia Docker Runtime을 기본값으로 사용해야 합니다. 자세한 내용은 여기에서 확인할 수 있습니다. 우리 프로젝트 페이지에서 Colossal-AI를 직접 설치하는 것을 권장합니다.
CD 거대AI docker build -t colossalai ./docker
다음 명령을 실행하여 대화형 모드에서 Docker 컨테이너를 시작합니다.
docker run -ti --gpus all --rm --ipc=host colossalai bash
(맨 위로)
Forum, Slack 및 WeChat(微信)에서 Colossal-AI 커뮤니티에 참여하여 엔지니어링 팀과 제안, 피드백, 질문을 공유하세요.
BLOOM과 Stable Diffusion의 성공적인 시도를 참고하여 컴퓨팅 파워, 데이터 세트, 모델을 갖춘 모든 개발자와 파트너는 Colossal-AI 커뮤니티에 가입하고 구축하여 빅 AI 모델 시대를 향해 노력할 수 있습니다!
귀하는 당사에 연락하거나 다음 방법으로 참여할 수 있습니다.
여러분의 좋아요와 지지를 보여드리기 위해 별을 남겨주세요. 감사해요!
GitHub에 문제를 게시하거나 PR을 제출하려면 기여 가이드라인을 따르세요.
공식 제안서를 이메일 [email protected]으로 보내주세요.
우리의 놀라운 기여자들 모두에게 정말 감사드립니다!
(맨 위로)
우리는 GitHub Actions의 강력한 기능을 활용하여 개발, 릴리스 및 배포 워크플로를 자동화합니다. 자동화된 작업 흐름이 어떻게 작동하는지에 대한 이 문서를 확인하세요.
이 프로젝트는 일부 관련 프로젝트(일부는 우리 팀, 일부는 다른 조직)에서 영감을 받았습니다. 우리는 참고 목록에 나열된 이 놀라운 프로젝트의 공로를 인정하고 싶습니다.
이 프로젝트를 인용하려면 다음 BibTeX 인용을 사용할 수 있습니다.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI는 NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC 등 최고의 컨퍼런스에서 공식 튜토리얼로 승인되었습니다.
(맨 위로)