| Bahasa Inggris | 中文 |
Akses komputasi on-demand kelas atas untuk riset Anda secara instan—tidak perlu penyiapan.
Daftar sekarang dan dapatkan kredit $10!
Bonus Akademik Terbatas:
Isi ulang $1.000 dan terima 300 kredit
Isi ulang $500 dan terima 100 kredit
[2024/10] Bagaimana cara membuat aplikasi mirip Sora berbiaya rendah? Solusi untuk Anda
[2024/09] Startup Singapura HPC-AI Tech Mendapatkan Pendanaan Seri A sebesar 50 Juta USD untuk Membangun Model AI Generasi Video dan Platform GPU
[2024/09] Mengurangi Biaya Pelatihan Model Besar AI sebesar 30% Hanya Membutuhkan Satu Baris Kode Dari Peningkatan Pelatihan Presisi Campuran FP8
[2024/06] Open-Sora Lanjutkan Open Source: Hasilkan Video HD 720p 16 Detik Apa Pun dengan Satu Klik, Bobot Model Siap Digunakan
[2024/05] Kecepatan Inferensi Model AI Besar Berlipat Ganda, Rilis Sumber Terbuka Inferensi Kolosal
[2024/04] Open-Sora Meluncurkan Peningkatan Besar: Merangkul Open Source dengan Pembuatan Video Single-Shot 16 Detik dan Resolusi 720p
[2024/04] Solusi paling hemat biaya untuk inferensi, penyesuaian, dan prapelatihan, disesuaikan dengan seri LLaMA3
Mengapa Kolosal-AI
Fitur
AI Kolosal untuk Aplikasi Dunia Nyata
Open-Sora: Mengungkap Parameter Model Lengkap, Detail Pelatihan, dan Segalanya untuk Model Pembuatan Video Mirip Sora
Colossal-LLaMA-2: Pelatihan Setengah Hari Menggunakan Beberapa Ratus Dolar Menghasilkan Hasil yang Mirip dengan Model Besar Arus Utama, Solusi Llm Khusus Domain Sumber Terbuka dan Bebas Komersial
ColossalChat: Solusi Sumber Terbuka untuk Mengkloning ChatGPT Dengan Pipeline RLHF Lengkap
AIGC: Percepatan Difusi Stabil
Biomedis: Percepatan Struktur Protein AlphaFold
Demo Pelatihan Paralel
LLaMA 1/2/3
Kementerian
GPT-3
GPT-2
BERT
Telapak
MEMILIH
ViT
Model Sistem Rekomendasi
Demo Pelatihan GPU Tunggal
GPT-2
Telapak
Kesimpulan
Inferensi Kolosal: Kecepatan Inferensi Model AI Besar Dua Kali Lipat
Grok-1: model 314B dari PyTorch + Inferensi HuggingFace
SwiftInfer: Menembus Batas Panjang LLM untuk Percakapan Multi-Putaran dengan Akselerasi 46%
Instalasi
PyPI
Instal Dari Sumber
Gunakan Docker
Masyarakat
Berkontribusi
Kutip Kami
Prof James Demmel (UC Berkeley): Colossal-AI membuat pelatihan model AI menjadi efisien, mudah, dan terukur.
(kembali ke atas)
Colossal-AI menyediakan kumpulan komponen paralel untuk Anda. Kami bertujuan untuk mendukung Anda menulis model pembelajaran mendalam terdistribusi seperti cara Anda menulis model di laptop Anda. Kami menyediakan alat yang mudah digunakan untuk memulai pelatihan terdistribusi dan inferensi dalam beberapa baris.
Strategi paralelisme
Paralelisme Data
Paralelisme Saluran Pipa
Paralelisme Tensor 1D, 2D, 2.5D, 3D
Paralelisme Urutan
Pengoptimal Nol Redundansi (ZeRO)
Paralelisme Otomatis
Manajemen Memori Heterogen
PatrickBintang
Penggunaan Ramah
Paralelisme berdasarkan file konfigurasi
(kembali ke atas)
Open-Sora:Mengungkapkan Parameter Model Lengkap, Detail Pelatihan, dan Segalanya untuk Model Pembuatan Video Mirip Sora [code] [blog] [Bobot model] [Demo] [GPU Cloud Playground] [OpenSora Image]
(kembali ke atas)
[GPU Cloud Playground] [Gambar LLaMA3]
7B: Pelatihan setengah hari yang menggunakan beberapa ratus dolar memberikan hasil yang serupa dengan model besar arus utama, solusi LLM khusus domain sumber terbuka dan bebas komersial. [kode] [blog] [Bobot model HuggingFace] [Bobot model Modelscope]
13B: Buat model pribadi 13B yang disempurnakan hanya dengan $5000 USD. [kode] [blog] [Bobot model HuggingFace] [Bobot model Modelscope]
Model | Tulang punggung | Token Dikonsumsi | MMLU (5 tembakan) | CMMLU (5 tembakan) | AGIEval (5 tembakan) | GAOKAO (0 tembakan) | CEval (5 tembakan) |
---|---|---|---|---|---|---|---|
Baichuan-7B | - | 1.2T | 42.32 (42.30) | 44.53 (44.02) | 38.72 | 36.74 | 42.80 |
Pangkalan Baichuan-13B | - | 1,4T | 50,51 (51,60) | 55,73 (55,30) | 47.20 | 51.41 | 53.60 |
Pangkalan Baichuan2-7B | - | 2.6T | 46,97 (54,16) | 57.67 (57.07) | 45.76 | 52.60 | 54.00 |
Pangkalan Baichuan2-13B | - | 2.6T | 54,84 (59,17) | 62,62 (61,97) | 52.08 | 58.25 | 58.10 |
ObrolanGLM-6B | - | 1,0T | 39,67 (40,63) | 41.17 (-) | 40.10 | 36.53 | 38.90 |
ObrolanGLM2-6B | - | 1,4T | 44,74 (45,46) | 49,40 (-) | 46.36 | 45.49 | 51.70 |
MagangLM-7B | - | 1,6T | 46,70 (51,00) | 52.00 (-) | 44.77 | 61.64 | 52.80 |
Qwen-7B | - | 2.2T | 54,29 (56,70) | 56,03 (58,80) | 52.47 | 56.42 | 59.60 |
Llama-2-7B | - | 2.0T | 44.47 (45.30) | 32,97 (-) | 32.60 | 25.46 | - |
Linly-AI/Cina-LLaMA-2-7B-hf | Llama-2-7B | 1,0T | 37.43 | 29.92 | 32.00 | 27.57 | - |
wenge-penelitian/yayi-7b-llama2 | Llama-2-7B | - | 38.56 | 31.52 | 30,99 | 25.95 | - |
ziqingyang/china-llama-2-7b | Llama-2-7B | - | 33.86 | 34.69 | 34.52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | Llama-2-7B | 0,3T | 43.73 | 42.04 | 37.64 | 30.61 | - |
LinkSoul/Cina-Llama-2-7b | Llama-2-7B | - | 48.41 | 38.31 | 38.45 | 27.72 | - |
BenderaAlpha/Atom-7B | Llama-2-7B | 0,1T | 49,96 | 41.10 | 39.83 | 33.00 | - |
IDE-CCNL/Ziya-LLaMA-13B-v1.1 | Llama-13B | 0,11T | 50.25 | 40,99 | 40.04 | 30.54 | - |
Basis-LLaMA-2-7b kolosal | Llama-2-7B | 0,0085T | 53.06 | 49,89 | 51.48 | 58.82 | 50.2 |
Basis-LLaMA-2-13b kolosal | Llama-2-13B | 0,025T | 56.42 | 61.80 | 54.69 | 69.53 | 60.3 |
ColossalChat: Solusi sumber terbuka untuk mengkloning ChatGPT dengan pipeline RLHF lengkap. [kode] [blog] [demo] [tutorial]
Hingga 10 kali lebih cepat untuk Pelatihan RLHF PPO Stage3
Hingga 7,73 kali lebih cepat untuk pelatihan server tunggal dan 1,42 kali lebih cepat untuk inferensi GPU tunggal
Pertumbuhan kapasitas model hingga 10,3x pada satu GPU
Proses pelatihan demo mini hanya memerlukan memori GPU sebesar 1,62 GB (GPU tingkat konsumen apa pun)
Meningkatkan kapasitas model fine-tuning hingga 3,7 kali lipat pada satu GPU
Pertahankan kecepatan lari yang cukup tinggi
(kembali ke atas)
Akselerasi model AIGC (AI-Generated Content) seperti Stable Diffusion v1 dan Stable Diffusion v2.
Pelatihan: Mengurangi konsumsi memori Difusi Stabil hingga 5,6x dan biaya perangkat keras hingga 46x (dari A100 hingga RTX3060).
Penyempurnaan DreamBooth: Personalisasikan model Anda hanya dengan menggunakan 3-5 gambar subjek yang diinginkan.
Inferensi: Mengurangi konsumsi memori GPU inferensi sebesar 2,5x.
(kembali ke atas)
Percepatan Struktur Protein AlphaFold
FastFold: Mempercepat pelatihan dan inferensi pada Cluster GPU, pemrosesan data lebih cepat, urutan inferensi berisi lebih dari 10.000 residu.
FastFold dengan Intel: akselerasi inferensi 3x dan pengurangan biaya 39%.
xTrimoMultimer: mempercepat prediksi struktur monomer protein dan multimer sebesar 11x.
(kembali ke atas)
70 miliar parameter pelatihan model LLaMA3 dipercepat sebesar 18% [kode] [GPU Cloud Playground] [Gambar LLaMA3]
70 miliar parameter pelatihan model LLaMA2 dipercepat sebesar 195% [kode] [blog]
Pra-pelatihan model besar dengan 65 miliar parameter dipercepat sebesar 38% [kode] [blog]
Paralelisme MoE yang ditingkatkan, pelatihan model MoE sumber terbuka bisa 9 kali lebih efisien [kode] [blog]
Menghemat 50% sumber daya GPU dan akselerasi 10,7%.
Konsumsi memori GPU 11x lebih rendah, dan efisiensi penskalaan superlinear dengan Tensor Parallelism
Ukuran model 24x lebih besar pada perangkat keras yang sama
akselerasi lebih dari 3x
Pelatihan 2x lebih cepat, atau panjang urutan 50% lebih panjang
PaLM-colossalai: Implementasi Pathways Language Model (PaLM) Google yang skalabel.
Open Pretrained Transformer (OPT), model bahasa AI dengan 175 Miliar parameter yang dirilis oleh Meta, merangsang pemrogram AI untuk melakukan berbagai tugas hilir dan penerapan aplikasi karena bobot model publik yang telah dilatih sebelumnya.
OPT penyempurnaan percepatan 45% dengan biaya rendah. [Contoh] [Pelayanan Online]
Silakan kunjungi dokumentasi dan contoh kami untuk lebih jelasnya.
Ukuran batch 14x lebih besar, dan pelatihan 5x lebih cepat untuk Paralelisme Tensor = 64
Penyematan dalam cache, manfaatkan cache perangkat lunak untuk melatih tabel penyematan yang lebih besar dengan anggaran memori GPU yang lebih kecil.
(kembali ke atas)
Ukuran model 20x lebih besar pada perangkat keras yang sama
Ukuran model 120x lebih besar pada perangkat keras yang sama (RTX 3080)
Ukuran model 34x lebih besar pada perangkat keras yang sama
(kembali ke atas)
Kecepatan inferensi model AI besar meningkat dua kali lipat, dibandingkan dengan performa inferensi offline vLLM dalam beberapa kasus. [kode] [blog] [GPU Cloud Playground] [Gambar LLaMA3]
314 Miliar Parameter Inferensi Grok-1 Dipercepat 3,8x, versi Python + PyTorch + HuggingFace yang mudah digunakan untuk Inferensi.
[kode] [blog] [Bobot model HuggingFace Grok-1 PyTorch] [Bobot model ModelScope Grok-1 PyTorch]
SwiftInfer: Kinerja inferensi meningkat sebesar 46%, solusi sumber terbuka menembus batas panjang LLM untuk percakapan multi-putaran
(kembali ke atas)
Persyaratan:
PyTorch >= 2.2
Piton >= 3.7
CUDA >= 11.0
Kemampuan Komputasi GPU NVIDIA >= 7.0 (V100/RTX20 dan lebih tinggi)
sistem operasi Linux
Jika Anda mengalami masalah saat instalasi, Anda mungkin ingin menyampaikan masalah tersebut di repositori ini.
Anda dapat dengan mudah menginstal Colossal-AI dengan perintah berikut. Secara default, kami tidak membuat ekstensi PyTorch selama instalasi.
pip instal colossalai
Catatan: saat ini hanya Linux yang didukung.
Namun, jika Anda ingin membuat ekstensi PyTorch selama instalasi, Anda dapat mengatur BUILD_EXT=1
.
BUILD_EXT=1 pip instal colossalai
Jika tidak, kernel CUDA akan dibuat saat runtime ketika Anda benar-benar membutuhkannya.
Kami juga terus merilis versi malam ke PyPI setiap minggunya. Hal ini memungkinkan Anda untuk mengakses fitur yang belum dirilis dan perbaikan bug di cabang utama. Instalasi dapat dilakukan melalui
pip install colossalai-malam
Versi Colossal-AI akan sejalan dengan cabang utama repositori. Jangan ragu untuk menyampaikan masalah jika Anda menemui masalah. :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# instal colossalaipip instal .
Secara default, kami tidak mengkompilasi kernel CUDA/C++. ColossalAI akan membangunnya saat runtime. Jika Anda ingin menginstal dan mengaktifkan fusi kernel CUDA (instalasi wajib saat menggunakan pengoptimal fusi):
BUILD_EXT=1 pemasangan pip.
Untuk Pengguna dengan CUDA 10.2, Anda masih dapat membuat ColossalAI dari sumber. Namun, Anda perlu mengunduh perpustakaan cub secara manual dan menyalinnya ke direktori yang sesuai.
# mengkloning repositorigit clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# unduh perpustakaan cubwget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip buka zip 1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install .
(kembali ke atas)
Anda dapat langsung menarik image buruh pelabuhan dari halaman DockerHub kami. Gambar secara otomatis diunggah setelah dirilis.
Jalankan perintah berikut untuk membuat image buruh pelabuhan dari Dockerfile yang disediakan.
Membangun Colossal-AI dari awal memerlukan dukungan GPU, Anda perlu menggunakan Nvidia Docker Runtime sebagai default saat melakukan
docker build
. Detail lebih lanjut dapat ditemukan di sini. Kami menyarankan Anda menginstal Colossal-AI langsung dari halaman proyek kami.
cd ColossalAI docker build -t colossalai ./docker
Jalankan perintah berikut untuk memulai kontainer buruh pelabuhan dalam mode interaktif.
jalankan buruh pelabuhan -ti --gpus all --rm --ipc=host colossalai bash
(kembali ke atas)
Bergabunglah dengan komunitas Colossal-AI di Forum, Slack, dan WeChat(微信) untuk berbagi saran, masukan, dan pertanyaan Anda dengan tim teknis kami.
Merujuk pada keberhasilan upaya BLOOM dan Difusi Stabil, setiap dan semua pengembang dan mitra dengan kekuatan komputasi, kumpulan data, model dipersilakan untuk bergabung dan membangun komunitas Colossal-AI, melakukan upaya menuju era model AI besar!
Anda dapat menghubungi kami atau berpartisipasi dengan cara berikut:
Meninggalkan Bintang untuk menunjukkan rasa suka dan dukungan Anda. Terima kasih!
Memposting masalah, atau mengirimkan PR di GitHub, ikuti panduan dalam Berkontribusi
Kirimkan proposal resmi Anda ke email [email protected]
Terima kasih banyak kepada semua kontributor kami yang luar biasa!
(kembali ke atas)
Kami memanfaatkan kekuatan GitHub Actions untuk mengotomatiskan alur kerja pengembangan, rilis, dan penerapan kami. Silakan lihat dokumentasi ini tentang cara alur kerja otomatis dioperasikan.
Proyek ini terinspirasi oleh beberapa proyek terkait (sebagian oleh tim kami dan sebagian lagi oleh organisasi lain). Kami ingin menghargai proyek luar biasa ini sebagaimana tercantum dalam Daftar Referensi.
Untuk mengutip proyek ini, Anda dapat menggunakan kutipan BibTeX berikut.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI telah diterima sebagai tutorial resmi oleh konferensi terkemuka NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC, dll.
(kembali ke atas)