| Inglês | 中文 |
Acesse instantaneamente computação de alta tecnologia sob demanda para sua pesquisa, sem necessidade de configuração.
Cadastre-se agora e ganhe US$ 10 em créditos!
Bônus acadêmicos limitados:
Recarregue US$ 1.000 e receba 300 créditos
Recarregue $ 500 e receba 100 créditos
[2024/10] Como construir um aplicativo semelhante ao Sora de baixo custo? Soluções para você
[2024/09] HPC-AI Tech, startup de Cingapura, garante 50 milhões de dólares em financiamento da Série A para construir o modelo de IA de geração de vídeo e a plataforma de GPU
[2024/09] A redução dos custos de treinamento de grandes modelos de IA em 30% requer apenas uma única linha de código das atualizações de treinamento de precisão mista do 8º PQ
[2024/06] Open-Sora continua com código aberto: gere qualquer vídeo HD 720p de 16 segundos com um clique, pesos de modelo prontos para uso
[2024/05] Velocidade de inferência de grandes modelos de IA duplicada, lançamento de código aberto de inferência colossal
[2024/04] Open-Sora revela grande atualização: adotando código aberto com geração de vídeo de 16 segundos de disparo único e resolução de 720p
[2024/04] Soluções mais econômicas para inferência, ajuste fino e pré-treinamento, adaptadas à série LLaMA3
Por que Colossal-AI
Características
Colossal-AI para aplicações do mundo real
Open-Sora: revelando parâmetros completos do modelo, detalhes de treinamento e tudo para modelos de geração de vídeo semelhantes ao Sora
Colossal-LLaMA-2: meio dia de treinamento usando algumas centenas de dólares produz resultados semelhantes aos grandes modelos convencionais, solução Llm de domínio específico de código aberto e livre de comércio
ColossalChat: uma solução de código aberto para clonagem de ChatGPT com um pipeline RLHF completo
AIGC: Aceleração da Difusão Estável
Biomedicina: Aceleração da Estrutura da Proteína AlphaFold
Demonstração de treinamento paralelo
Lhama 1/2/3
Ministério da Educação
GPT-3
GPT-2
BERTO
Palma
OPTAR
ViT
Modelos de sistema de recomendação
Demonstração de treinamento de GPU única
GPT-2
Palma
Inferência
Inferência colossal: velocidade de inferência de grandes modelos de IA duplicada
Grok-1: modelo 314B de inferência PyTorch + HuggingFace
SwiftInfer: quebra o limite de comprimento do LLM para conversas multi-rodadas com aceleração de 46%
Instalação
PyPI
Instalar da fonte
Use o Docker
Comunidade
Contribuindo
Cite-nos
Prof. James Demmel (UC Berkeley): Colossal-AI torna o treinamento de modelos de IA eficiente, fácil e escalável.
(voltar ao topo)
Colossal-AI fornece uma coleção de componentes paralelos para você. Nosso objetivo é ajudá-lo a escrever seus modelos de aprendizado profundo distribuído, da mesma forma que você escreve seu modelo em seu laptop. Fornecemos ferramentas fáceis de usar para iniciar o treinamento distribuído e a inferência em poucas linhas.
Estratégias de paralelismo
Paralelismo de dados
Paralelismo de pipeline
Paralelismo de tensor 1D, 2D, 2,5D, 3D
Paralelismo de Sequência
Otimizador de Redundância Zero (ZeRO)
Paralelismo Automático
Gerenciamento de memória heterogênea
PatrickStar
Uso amigável
Paralelismo baseado no arquivo de configuração
(voltar ao topo)
Open-Sora: revelando parâmetros completos do modelo, detalhes de treinamento e tudo para modelos de geração de vídeo semelhantes ao Sora [código] [blog] [Pesos do modelo] [Demonstração] [GPU Cloud Playground] [Imagem OpenSora]
(voltar ao topo)
[GPU Cloud Playground] [Imagem LLaMA3]
7B: Meio dia de treinamento usando algumas centenas de dólares produz resultados semelhantes aos grandes modelos convencionais, soluções LLM de domínio específico de código aberto e sem comercial. [código] [blog] [Pesos do modelo HuggingFace] [Pesos do modelo Modelscope]
13B: Construa um modelo privado 13B refinado com apenas US$ 5.000. [código] [blog] [Pesos do modelo HuggingFace] [Pesos do modelo Modelscope]
Modelo | Espinha dorsal | Tokens consumidos | MMLU (5 tiros) | CMMLU (5 fotos) | AGIEval (5 fotos) | GAOKAO (0 tiro) | CEval (5 tiros) |
---|---|---|---|---|---|---|---|
Baichuan-7B | - | 1,2T | 42,32 (42,30) | 44,53 (44,02) | 38,72 | 36,74 | 42,80 |
Base Baichuan-13B | - | 1.4T | 50,51 (51,60) | 55,73 (55,30) | 47,20 | 51,41 | 53,60 |
Base Baichuan2-7B | - | 2.6T | 46,97 (54,16) | 57,67 (57,07) | 45,76 | 52,60 | 54,00 |
Base Baichuan2-13B | - | 2.6T | 54,84 (59,17) | 62,62 (61,97) | 52.08 | 58,25 | 58.10 |
Bate-papoGLM-6B | - | 1,0T | 39,67 (40,63) | 41,17 (-) | 40.10 | 36,53 | 38,90 |
Bate-papoGLM2-6B | - | 1.4T | 44,74 (45,46) | 49,40 (-) | 46,36 | 45,49 | 51,70 |
EstagiárioLM-7B | - | 1.6T | 46,70 (51,00) | 52,00 (-) | 44,77 | 61,64 | 52,80 |
Qwen-7B | - | 2.2T | 54,29 (56,70) | 56,03 (58,80) | 52,47 | 56,42 | 59,60 |
Lhama-2-7B | - | 2.0T | 44,47 (45,30) | 32,97 (-) | 32,60 | 25.46 | - |
Linly-AI/Chinês-LLaMA-2-7B-hf | Lhama-2-7B | 1,0T | 37,43 | 29,92 | 32h00 | 27,57 | - |
pesquisa wengué/yayi-7b-llama2 | Lhama-2-7B | - | 38,56 | 31.52 | 30,99 | 25,95 | - |
ziqingyang/lhama-chinês-2-7b | Lhama-2-7B | - | 33,86 | 34,69 | 34,52 | 25.18 | 34,2 |
TigerResearch/tigerbot-7b-base | Lhama-2-7B | 0,3T | 43,73 | 42.04 | 37,64 | 30,61 | - |
LinkSoul/Lhama-Chinês-2-7b | Lhama-2-7B | - | 48,41 | 38,31 | 38,45 | 27,72 | - |
BandeiraAlfa/Atom-7B | Lhama-2-7B | 0,1T | 49,96 | 41.10 | 39,83 | 33h00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | Lhama-13B | 0,11T | 50,25 | 40,99 | 40.04 | 30,54 | - |
Colossal-LLaMA-2-7b-base | Lhama-2-7B | 0,0085T | 53.06 | 49,89 | 51,48 | 58,82 | 50,2 |
Colossal-LLaMA-2-13b-base | Lhama-2-13B | 0,025T | 56,42 | 61,80 | 54,69 | 69,53 | 60,3 |
ColossalChat: Uma solução de código aberto para clonagem de ChatGPT com um pipeline RLHF completo. [código] [blog] [demonstração] [tutorial]
Até 10 vezes mais rápido para treinamento RLHF PPO Stage3
Até 7,73 vezes mais rápido para treinamento de servidor único e 1,42 vezes mais rápido para inferência de GPU única
Crescimento de até 10,3x na capacidade do modelo em uma GPU
Um processo de treinamento de mini demonstração requer apenas 1,62 GB de memória de GPU (qualquer GPU de consumo)
Aumente a capacidade do modelo de ajuste fino em até 3,7 vezes em uma única GPU
Mantenha uma velocidade de corrida suficientemente alta
(voltar ao topo)
Aceleração de modelos AIGC (Conteúdo Gerado por IA), como Stable Diffusion v1 e Stable Diffusion v2.
Treinamento: Reduza o consumo de memória Stable Diffusion em até 5,6x e o custo de hardware em até 46x (de A100 a RTX3060).
Ajuste fino do DreamBooth: Personalize seu modelo usando apenas 3 a 5 imagens do assunto desejado.
Inferência: Reduza o consumo de memória da GPU de inferência em 2,5x.
(voltar ao topo)
Aceleração da estrutura da proteína AlphaFold
FastFold: Aceleração de treinamento e inferência em clusters de GPU, processamento de dados mais rápido, sequência de inferência contendo mais de 10.000 resíduos.
FastFold com Intel: aceleração de inferência 3x e redução de custos de 39%.
xTrimoMultimer: acelerando a previsão da estrutura de monômeros e multímeros de proteínas em 11x.
(voltar ao topo)
Treinamento do modelo LLaMA3 de 70 bilhões de parâmetros acelerado em 18% [código] [GPU Cloud Playground] [Imagem LLaMA3]
Treinamento do modelo LLaMA2 de 70 bilhões de parâmetros acelerado em 195% [código] [blog]
Pré-treinamento de modelo grande de 65 bilhões de parâmetros acelerado em 38% [código] [blog]
Paralelismo MoE aprimorado, treinamento de modelo MoE de código aberto pode ser 9 vezes mais eficiente [código] [blog]
Economize 50% de recursos de GPU e 10,7% de aceleração
Consumo de memória de GPU 11x menor e eficiência de escalonamento superlinear com Paralelismo de Tensor
Tamanho do modelo 24x maior no mesmo hardware
mais de 3x de aceleração
Treinamento 2x mais rápido ou duração de sequência 50% maior
PaLM-colossalai: implementação escalonável do Pathways Language Model (PaLM) do Google.
Open Pretrained Transformer (OPT), um modelo de linguagem de IA de 175 bilhões de parâmetros lançado pela Meta, que estimula os programadores de IA a executar várias tarefas downstream e implantações de aplicativos devido aos pesos do modelo público pré-treinado.
Aceleração de 45% no ajuste fino do OPT com baixo custo nas linhas. [Exemplo] [Exibição on-line]
Por favor, visite nossa documentação e exemplos para mais detalhes.
Tamanho de lote 14x maior e treinamento 5x mais rápido para paralelismo de tensor = 64
Incorporação em cache, utiliza cache de software para treinar tabelas de incorporação maiores com um orçamento de memória de GPU menor.
(voltar ao topo)
Tamanho do modelo 20x maior no mesmo hardware
Tamanho do modelo 120x maior no mesmo hardware (RTX 3080)
Tamanho do modelo 34x maior no mesmo hardware
(voltar ao topo)
A velocidade de inferência de grandes modelos de IA dobrou, em comparação com o desempenho de inferência offline do vLLM em alguns casos. [código] [blog] [GPU Cloud Playground] [Imagem LLaMA3]
Inferência Grok-1 de 314 bilhões de parâmetros acelerada em 3,8x, uma versão Python + PyTorch + HuggingFace fácil de usar para inferência.
[código] [blog] [Pesos do modelo HuggingFace Grok-1 PyTorch] [Pesos do modelo ModelScope Grok-1 PyTorch]
SwiftInfer: desempenho de inferência melhorado em 46%, solução de código aberto quebra o limite de comprimento do LLM para conversas multi-rodadas
(voltar ao topo)
Requisitos:
PyTorch >= 2,2
Pitão >= 3.7
CUDA >= 11,0
Capacidade de computação da GPU NVIDIA >= 7,0 (V100/RTX20 e superior)
SO Linux
Se você encontrar algum problema com a instalação, você pode querer levantar um problema neste repositório.
Você pode instalar facilmente o Colossal-AI com o seguinte comando. Por padrão, não construímos extensões PyTorch durante a instalação.
pip instalar colossala
Nota: apenas Linux é compatível por enquanto.
No entanto, se quiser construir as extensões PyTorch durante a instalação, você pode definir BUILD_EXT=1
.
BUILD_EXT = 1 pip instalar colossala
Caso contrário, os kernels CUDA serão construídos durante o tempo de execução quando você realmente precisar deles.
Também continuamos lançando a versão noturna para PyPI todas as semanas. Isso permite que você acesse recursos não lançados e correções de bugs no branch principal. A instalação pode ser feita através
pip instalar colossalai-nightly
A versão do Colossal-AI estará alinhada com o branch principal do repositório. Sinta-se à vontade para levantar uma questão se encontrar algum problema. :)
clone git https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install .
Por padrão, não compilamos kernels CUDA/C++. ColossalAI irá construí-los durante o tempo de execução. Se você deseja instalar e habilitar o kernel fusion CUDA (instalação obrigatória ao usar o otimizador fundido):
BUILD_EXT = 1 instalação pip.
Para usuários com CUDA 10.2, você ainda pode construir o ColossalAI a partir do código-fonte. No entanto, você precisa baixar manualmente a biblioteca cub e copiá-la para o diretório correspondente.
# clone o repositóriogit clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# baixe a biblioteca cubwget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip descompacte 1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install .
(voltar ao topo)
Você pode extrair diretamente a imagem do Docker de nossa página DockerHub. A imagem é carregada automaticamente após o lançamento.
Execute o seguinte comando para construir uma imagem docker a partir do Dockerfile fornecido.
Construir Colossal-AI do zero requer suporte de GPU, você precisa usar Nvidia Docker Runtime como padrão ao fazer
docker build
. Mais detalhes podem ser encontrados aqui. Recomendamos que você instale o Colossal-AI diretamente da página do nosso projeto.
cd Colossal AI docker build -t colossalai ./docker
Execute o seguinte comando para iniciar o contêiner do Docker no modo interativo.
docker run -ti --gpus all --rm --ipc=host colossalai bash
(voltar ao topo)
Junte-se à comunidade Colossal-AI no Fórum, Slack e WeChat(微信) para compartilhar suas sugestões, comentários e perguntas com nossa equipe de engenharia.
Referindo-se às tentativas bem-sucedidas de BLOOM e Stable Diffusion, todo e qualquer desenvolvedor e parceiro com poderes de computação, conjuntos de dados e modelos são bem-vindos para se juntar e construir a comunidade Colossal-AI, fazendo esforços para a era dos grandes modelos de IA!
Você pode entrar em contato conosco ou participar das seguintes formas:
Deixando uma estrela para mostrar seu gosto e apoio. Obrigado!
Publicar um problema ou enviar um PR no GitHub siga as diretrizes em Contribuição
Envie sua proposta oficial para o e-mail [email protected]
Muito obrigado a todos os nossos incríveis colaboradores!
(voltar ao topo)
Aproveitamos o poder do GitHub Actions para automatizar nossos fluxos de trabalho de desenvolvimento, lançamento e implantação. Confira esta documentação sobre como os fluxos de trabalho automatizados são operados.
Este projeto é inspirado em alguns projetos relacionados (alguns da nossa equipe e outros de outras organizações). Gostaríamos de creditar esses projetos incríveis listados na Lista de Referências.
Para citar este projeto, você pode usar a seguinte citação do BibTeX.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI foi aceito como tutorial oficial pelas principais conferências NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC, etc.
(voltar ao topo)