| Inglés | 中文 |
Acceda a computación bajo demanda de alta gama para su investigación al instante, sin necesidad de configuración.
¡Regístrese ahora y obtenga $10 en créditos!
Bonos Académicos Limitados:
Recarga $1,000 y recibe 300 créditos
Recarga $500 y recibe 100 créditos
[2024/10] ¿Cómo crear una aplicación similar a Sora de bajo costo? Soluciones para ti
[2024/09] La startup de Singapur HPC-AI Tech obtiene 50 millones de dólares en financiación Serie A para construir el modelo de IA de generación de vídeo y la plataforma GPU
[2024/09] Reducir los costos de capacitación de modelos grandes de IA en un 30% requiere solo una línea de código de las actualizaciones de capacitación de precisión mixta del FP8
[2024/06] Open-Sora continúa con el código abierto: genere cualquier video HD de 720p de 16 segundos con un solo clic, pesos de modelo listos para usar
[2024/05] Velocidad de inferencia de modelos de IA grandes duplicada, lanzamiento de código abierto de inferencia colosal
[2024/04] Open-Sora presenta una importante actualización: adopción del código abierto con generación de vídeo de 16 segundos de toma única y resolución de 720p
[2024/04] Las soluciones más rentables para inferencia, ajuste fino y preentrenamiento, adaptadas a la serie LLaMA3
Por qué Colossal-AI
Características
IA colosal para aplicaciones del mundo real
Open-Sora: revelando parámetros completos del modelo, detalles de entrenamiento y todo para modelos de generación de video similares a Sora
Colossal-LLaMA-2: Medio día de capacitación con unos pocos cientos de dólares produce resultados similares a los de los modelos grandes convencionales, una solución Llm de código abierto y sin comerciales para dominios específicos
ColossalChat: una solución de código abierto para clonar ChatGPT con una canalización RLHF completa
AIGC: Aceleración de la Difusión Estable
Biomedicina: aceleración de la estructura de la proteína AlphaFold
Demostración de entrenamiento paralelo
Llama 1/2/3
Ministerio de Educación
GPT-3
GPT-2
BERT
Palmera
OPTAR
ViT
Modelos de sistemas de recomendación
Demostración de entrenamiento de GPU única
GPT-2
Palmera
Inferencia
Inferencia colosal: la velocidad de inferencia de los grandes modelos de IA se duplicó
Grok-1: modelo 314B de PyTorch + Inferencia HuggingFace
SwiftInfer: rompe el límite de duración de LLM para conversaciones de varias rondas con una aceleración del 46%
Instalación
PyPI
Instalar desde la fuente
Usar ventana acoplable
Comunidad
Contribuyendo
Cítenos
Prof. James Demmel (UC Berkeley): Colossal-AI hace que el entrenamiento de modelos de IA sea eficiente, fácil y escalable.
(volver arriba)
Colossal-AI le proporciona una colección de componentes paralelos. Nuestro objetivo es ayudarlo a escribir sus modelos distribuidos de aprendizaje profundo tal como escribe su modelo en su computadora portátil. Proporcionamos herramientas fáciles de usar para iniciar la inferencia y la capacitación distribuida en unas pocas líneas.
Estrategias de paralelismo
Paralelismo de datos
Paralelismo de tuberías
Paralelismo tensorial 1D, 2D, 2.5D, 3D
Paralelismo de secuencia
Optimizador de redundancia cero (ZeRO)
Auto-paralelismo
Gestión de memoria heterogénea
patricioestrella
Uso amigable
Paralelismo basado en el archivo de configuración.
(volver arriba)
Open-Sora: revela parámetros completos del modelo, detalles de capacitación y todo lo necesario para modelos de generación de video similares a Sora [código] [blog] [Pesos de modelo] [Demostración] [GPU Cloud Playground] [Imagen de OpenSora]
(volver arriba)
[GPU Cloud Playground] [Imagen LLaMA3]
7B: Medio día de capacitación con unos pocos cientos de dólares produce resultados similares a los de los modelos grandes convencionales, la solución LLM de dominio específico, de código abierto y sin comerciales. [código] [blog] [Pesos del modelo HuggingFace] [Pesos del modelo Modelscope]
13B: Construye el refinado modelo privado 13B con solo $5000 USD. [código] [blog] [Pesos del modelo HuggingFace] [Pesos del modelo Modelscope]
Modelo | Columna vertebral | Fichas consumidas | MMLU (5 disparos) | CMMLU (5 disparos) | AGIEval (5 disparos) | GAOKAO (0 disparos) | CEval (5 tiros) |
---|---|---|---|---|---|---|---|
Baichuan-7B | - | 1,2 toneladas | 42,32 (42,30) | 44,53 (44,02) | 38,72 | 36,74 | 42,80 |
Base Baichuan-13B | - | 1,4T | 50,51 (51,60) | 55,73 (55,30) | 47.20 | 51,41 | 53,60 |
Baichuan2-7B-Base | - | 2,6T | 46,97 (54,16) | 57,67 (57,07) | 45,76 | 52,60 | 54.00 |
Baichuan2-13B-Base | - | 2,6T | 54,84 (59,17) | 62,62 (61,97) | 52.08 | 58,25 | 58.10 |
ChatGLM-6B | - | 1.0T | 39,67 (40,63) | 41,17 (-) | 40.10 | 36,53 | 38,90 |
ChatGLM2-6B | - | 1,4T | 44,74 (45,46) | 49,40 (-) | 46,36 | 45,49 | 51,70 |
PasanteLM-7B | - | 1,6T | 46,70 (51,00) | 52,00 (-) | 44,77 | 61,64 | 52,80 |
Qwen-7B | - | 2.2T | 54,29 (56,70) | 56,03 (58,80) | 52,47 | 56,42 | 59,60 |
Llama-2-7B | - | 2.0T | 44,47 (45,30) | 32,97 (-) | 32,60 | 25,46 | - |
Linly-AI/Chino-LLaMA-2-7B-hf | Llama-2-7B | 1.0T | 37,43 | 29,92 | 32.00 | 27,57 | - |
wenge-research/yayi-7b-llama2 | Llama-2-7B | - | 38,56 | 31,52 | 30,99 | 25,95 | - |
ziqingyang/llama-china-2-7b | Llama-2-7B | - | 33,86 | 34,69 | 34,52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | Llama-2-7B | 0.3T | 43,73 | 42.04 | 37,64 | 30.61 | - |
LinkSoul/Chino-Llama-2-7b | Llama-2-7B | - | 48.41 | 38.31 | 38,45 | 27,72 | - |
BanderaAlpha/Atom-7B | Llama-2-7B | 0,1T | 49,96 | 41.10 | 39,83 | 33.00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | Llama-13B | 0,11T | 50.25 | 40,99 | 40.04 | 30.54 | - |
Colosal-LLaMA-2-7b-base | Llama-2-7B | 0.0085T | 53.06 | 49,89 | 51,48 | 58,82 | 50.2 |
Colosal-LLaMA-2-13b-base | Llama-2-13B | 0.025T | 56,42 | 61,80 | 54,69 | 69,53 | 60.3 |
ColossalChat: una solución de código abierto para clonar ChatGPT con un canal RLHF completo. [código] [blog] [demostración] [tutorial]
Hasta 10 veces más rápido para el entrenamiento RLHF PPO Stage3
Hasta 7,73 veces más rápido para el entrenamiento con un solo servidor y 1,42 veces más rápido para la inferencia con una sola GPU
Hasta 10,3 veces más crecimiento en la capacidad del modelo en una GPU
Un proceso de capacitación de mini demostración requiere solo 1,62 GB de memoria GPU (cualquier GPU de consumo)
Aumente la capacidad del modelo de ajuste fino hasta 3,7 veces en una sola GPU
Mantenga una velocidad de carrera suficientemente alta
(volver arriba)
Aceleración de modelos AIGC (contenido generado por IA) como Stable Diffusion v1 y Stable Diffusion v2.
Capacitación: Reduzca el consumo de memoria de Difusión Estable hasta 5,6 veces y el costo de hardware hasta 46 veces (de A100 a RTX3060).
Ajuste de DreamBooth: personalice su modelo utilizando solo de 3 a 5 imágenes del sujeto deseado.
Inferencia: Reduzca el consumo de memoria de la GPU de inferencia en 2,5 veces.
(volver arriba)
Aceleración de la estructura de la proteína AlphaFold
FastFold: aceleración del entrenamiento y la inferencia en clústeres de GPU, procesamiento de datos más rápido, secuencia de inferencia que contiene más de 10000 residuos.
FastFold con Intel: aceleración de inferencia 3 veces y reducción de costos del 39 %.
xTrimoMultimer: acelera 11 veces la predicción de la estructura de monómeros y multímeros de proteínas.
(volver arriba)
Entrenamiento del modelo LLaMA3 de 70 mil millones de parámetros acelerado en un 18% [código] [GPU Cloud Playground] [Imagen LLaMA3]
Entrenamiento del modelo LLaMA2 de 70 mil millones de parámetros acelerado en un 195% [código] [blog]
El preentrenamiento de modelos grandes de 65 mil millones de parámetros se aceleró en un 38% [código] [blog]
Paralelismo MoE mejorado, el entrenamiento del modelo MoE de código abierto puede ser 9 veces más eficiente [código] [blog]
Ahorre 50% de recursos de GPU y 10,7% de aceleración
Consumo de memoria GPU 11 veces menor y eficiencia de escalado superlineal con paralelismo tensorial
Tamaño de modelo 24 veces mayor en el mismo hardware
más de 3x aceleración
Entrenamiento 2 veces más rápido o secuencia un 50% más larga
PaLM-colossalai: Implementación escalable del modelo de lenguaje Pathways (PaLM) de Google.
Open Pretrained Transformer (OPT), un modelo de lenguaje de IA de 175 mil millones de parámetros lanzado por Meta, que estimula a los programadores de IA a realizar diversas tareas posteriores e implementaciones de aplicaciones debido a los pesos del modelo público preentrenado.
45% de aceleración de ajuste OPT a bajo costo en líneas. [Ejemplo] [Servicio en línea]
Visite nuestra documentación y ejemplos para obtener más detalles.
Tamaño de lote 14 veces mayor y entrenamiento 5 veces más rápido para paralelismo tensorial = 64
Incrustación en caché: utilice la caché de software para entrenar tablas de incrustación más grandes con un presupuesto de memoria de GPU más pequeño.
(volver arriba)
Tamaño de modelo 20 veces mayor con el mismo hardware
Tamaño de modelo 120 veces mayor en el mismo hardware (RTX 3080)
Tamaño de modelo 34 veces mayor en el mismo hardware
(volver arriba)
La velocidad de inferencia de los grandes modelos de IA se duplicó en algunos casos, en comparación con el rendimiento de inferencia fuera de línea de vLLM. [código] [blog] [GPU Cloud Playground] [Imagen LLaMA3]
Inferencia Grok-1 de 314 mil millones de parámetros acelerada por 3.8x, una versión fácil de usar de Python + PyTorch + HuggingFace para inferencia.
[código] [blog] [Pesos del modelo PyTorch HuggingFace Grok-1] [Pesos del modelo ModelScope Grok-1 PyTorch]
SwiftInfer: el rendimiento de la inferencia mejoró en un 46 %, la solución de código abierto supera el límite de duración de LLM para conversaciones de varias rondas
(volver arriba)
Requisitos:
PyTorch >= 2.2
Pitón >= 3.7
CUDA >= 11.0
Capacidad de procesamiento de GPU NVIDIA >= 7.0 (V100/RTX20 y superior)
Sistema operativo Linux
Si encuentra algún problema con la instalación, es posible que desee plantear un problema en este repositorio.
Puede instalar fácilmente Colossal-AI con el siguiente comando. De forma predeterminada, no creamos extensiones de PyTorch durante la instalación.
instalación de pip colossalai
Nota: por ahora solo se admite Linux.
Sin embargo, si desea crear las extensiones de PyTorch durante la instalación, puede configurar BUILD_EXT=1
.
BUILD_EXT=1 pip instalación colossalai
De lo contrario, los kernels CUDA se construirán durante el tiempo de ejecución cuando realmente los necesite.
También seguimos lanzando la versión nocturna a PyPI cada semana. Esto le permite acceder a funciones inéditas y correcciones de errores en la rama principal. La instalación se puede realizar mediante
instalación de pip colossalai-nightly
La versión de Colossal-AI estará en línea con la rama principal del repositorio. No dude en plantear un problema si encuentra algún problema. :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# instalar colossalaipip instalar.
De forma predeterminada, no compilamos kernels CUDA/C++. ColossalAI los construirá durante el tiempo de ejecución. Si desea instalar y habilitar la fusión del kernel CUDA (instalación obligatoria cuando se utiliza el optimizador fusionado):
BUILD_EXT=Instalación de 1 pip.
Para los usuarios con CUDA 10.2, aún pueden compilar ColossalAI desde el código fuente. Sin embargo, debe descargar manualmente la biblioteca cub y copiarla en el directorio correspondiente.
# clonar el repositoriogit clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# descargar la biblioteca cubwget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip descomprimir 1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install .
(volver arriba)
Puede extraer directamente la imagen de la ventana acoplable desde nuestra página de DockerHub. La imagen se carga automáticamente al publicarse.
Ejecute el siguiente comando para crear una imagen de Docker a partir del Dockerfile proporcionado.
La creación de Colossal-AI desde cero requiere compatibilidad con GPU; debe utilizar Nvidia Docker Runtime como valor predeterminado al realizar
docker build
. Se pueden encontrar más detalles aquí. Le recomendamos instalar Colossal-AI directamente desde la página de nuestro proyecto.
cd colosalai ventana acoplable build -t colossalai ./docker
Ejecute el siguiente comando para iniciar el contenedor acoplable en modo interactivo.
ventana acoplable ejecute -ti --gpus all --rm --ipc=host colossalai bash
(volver arriba)
Únase a la comunidad Colossal-AI en Forum, Slack y WeChat(微信) para compartir sus sugerencias, comentarios y preguntas con nuestro equipo de ingeniería.
En referencia a los intentos exitosos de BLOOM y Stable Diffusion, todos y cada uno de los desarrolladores y socios con poderes informáticos, conjuntos de datos y modelos son bienvenidos a unirse y construir la comunidad Colossal-AI, haciendo esfuerzos hacia la era de los grandes modelos de IA.
Puede contactarnos o participar de las siguientes maneras:
Dejando una estrella para mostrar tu me gusta y apoyo. ¡Gracias!
Para publicar un problema o enviar un PR en GitHub, siga las pautas en Contribuir
Envía tu propuesta oficial al correo electrónico [email protected]
¡Muchas gracias a todos nuestros increíbles contribuyentes!
(volver arriba)
Aprovechamos el poder de GitHub Actions para automatizar nuestros flujos de trabajo de desarrollo, lanzamiento e implementación. Consulte esta documentación sobre cómo se operan los flujos de trabajo automatizados.
Este proyecto está inspirado en algunos proyectos relacionados (algunos de nuestro equipo y otros de otras organizaciones). Nos gustaría dar crédito a estos increíbles proyectos que figuran en la Lista de referencias.
Para citar este proyecto, puede utilizar la siguiente cita BibTeX.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI ha sido aceptado como tutorial oficial por las principales conferencias NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC, etc.
(volver arriba)