| английский | 中文 |
Получите мгновенный доступ к высокопроизводительным вычислительным ресурсам по требованию для проведения исследований — никакой настройки не требуется.
Зарегистрируйтесь сейчас и получите 10 долларов в виде кредитов!
Ограниченные академические бонусы:
Пополните счет на 1000 долларов и получите 300 кредитов.
Пополните счет на 500 долларов и получите 100 кредитов.
[2024/10] Как создать недорогое приложение, подобное Sora? Решения для вас
[2024/09] Сингапурский стартап HPC-AI Tech получает финансирование в размере 50 миллионов долларов США в рамках серии A для создания модели искусственного интеллекта для генерации видео и платформы графических процессоров.
[2024/09] Для сокращения затрат на обучение больших моделей искусственного интеллекта на 30 % требуется всего одна строка кода из обновлений смешанного прецизионного обучения FP8.
[2024/06] Open-Sora продолжает работу с открытым исходным кодом: создавайте любое 16-секундное HD-видео 720p одним щелчком мыши, вес модели готов к использованию
[2024/05] Скорость вывода больших моделей искусственного интеллекта увеличена вдвое, выпуск с открытым исходным кодом с колоссальным выводом
[2024/04] Open-Sora представляет крупное обновление: использование открытого исходного кода с однократной генерацией 16-секундного видео и разрешением 720p
[2024/04] Наиболее экономичные решения для вывода, точной настройки и предварительного обучения, адаптированные к серии LLaMA3.
Почему Колоссал-ИИ
Функции
Колоссальный искусственный интеллект для реальных приложений
Open-Sora: раскрытие полных параметров модели, деталей обучения и всего остального для моделей генерации видео, подобных Sora
Colossal-LLaMA-2: полдня обучения с использованием нескольких сотен долларов дает результаты, аналогичные обычным большим моделям, открытому исходному коду и бесплатному предметно-ориентированному решению Llm
ColossalChat: решение с открытым исходным кодом для клонирования ChatGPT с полным конвейером RLHF
AIGC: ускорение стабильной диффузии
Биомедицина: ускорение структуры белка AlphaFold
Демонстрация параллельного обучения
ЛЛАМА 1/2/3
МО
ГПТ-3
ГПТ-2
БЕРТ
Ладонь
ОПТ
ВИТ
Модели рекомендательных систем
Демонстрация обучения с одним графическим процессором
ГПТ-2
Ладонь
Вывод
Колоссальный вывод: скорость вывода больших моделей ИИ увеличена вдвое
Grok-1: модель PyTorch 314B + вывод HuggingFace
SwiftInfer: преодолевает ограничение длины LLM для многораундовых разговоров с ускорением 46%.
Установка
ПиПИ
Установить из источника
Используйте Докер
Сообщество
Содействие
Цитируйте нас
Профессор Джеймс Деммел (Калифорнийский университет в Беркли): Colossal-AI делает обучение моделей ИИ эффективным, простым и масштабируемым.
(вернуться к началу)
Colossal-AI предоставляет вам набор параллельных компонентов. Мы стремимся помочь вам писать распределенные модели глубокого обучения так же, как вы пишете свою модель на своем ноутбуке. Мы предоставляем удобные инструменты для запуска распределенного обучения и вывода в несколько строк.
Стратегии параллелизма
Параллелизм данных
Параллелизм конвейеров
1D, 2D, 2.5D, 3D тензорный параллелизм
Параллелизм последовательностей
Оптимизатор нулевой избыточности (ZeRO)
Автопараллелизм
Управление гетерогенной памятью
ПатрикСтар
Дружественное использование
Параллелизм на основе файла конфигурации
(вернуться к началу)
Open-Sora: раскрытие полных параметров модели, деталей обучения и всего остального для моделей генерации видео, подобных Sora [код] [блог] [Вес модели] [Демо] [Облачная площадка графического процессора] [Изображение OpenSora]
(вернуться к началу)
[Облачная площадка графического процессора] [Изображение LLaMA3]
7B: Полдня обучения с использованием нескольких сотен долларов дает результаты, аналогичные обычным большим моделям, бесплатному и открытому решению LLM для конкретной предметной области. [код] [блог] [Вес модели HuggingFace] [Вес модели Modelscope]
13B: Постройте усовершенствованную частную модель 13B всего за 5000 долларов США. [код] [блог] [Вес модели HuggingFace] [Вес модели Modelscope]
Модель | Магистраль | Токены израсходованы | ММЛУ (5 выстрелов) | СММЛУ (5 выстрелов) | AGIEval (5 выстрелов) | ГАОКАО (0 выстрелов) | CEval (5 выстрелов) |
---|---|---|---|---|---|---|---|
Байчуань-7Б | - | 1,2Т | 42,32 (42,30) | 44,53 (44,02) | 38,72 | 36,74 | 42,80 |
База Байчуань-13Б | - | 1,4 Т | 50,51 (51,60) | 55,73 (55,30) | 47.20 | 51,41 | 53,60 |
База Байчуань2-7B | - | 2,6 т | 46,97 (54,16) | 57,67 (57,07) | 45,76 | 52,60 | 54.00 |
Байчуань2-13B-База | - | 2,6 т | 54,84 (59,17) | 62,62 (61,97) | 52.08 | 58,25 | 58.10 |
ЧатGLM-6B | - | 1,0Т | 39,67 (40,63) | 41,17 (-) | 40.10 | 36,53 | 38,90 |
ЧатGLM2-6B | - | 1,4 Т | 44,74 (45,46) | 49,40 (-) | 46,36 | 45,49 | 51,70 |
СтажерLM-7B | - | 1,6 т | 46,70 (51,00) | 52,00 (-) | 44,77 | 61,64 | 52,80 |
Квен-7Б | - | 2,2Т | 54,29 (56,70) | 56,03 (58,80) | 52,47 | 56,42 | 59,60 |
Лама-2-7Б | - | 2.0Т | 44,47 (45,30) | 32,97 (-) | 32,60 | 25.46 | - |
Linly-AI/Китайский-LLaMA-2-7B-hf | Лама-2-7Б | 1,0Т | 37,43 | 29.92 | 32.00 | 27.57 | - |
венге-исследования/yayi-7b-llama2 | Лама-2-7Б | - | 38,56 | 31,52 | 30,99 | 25.95 | - |
Цзыцинъян/китайская-лама-2-7b | Лама-2-7Б | - | 33,86 | 34,69 | 34,52 | 25.18 | 34,2 |
TigerResearch/tigerbot-7b-база | Лама-2-7Б | 0,3Т | 43,73 | 42.04 | 37,64 | 30.61 | - |
LinkSoul/Китайский-Лама-2-7b | Лама-2-7Б | - | 48,41 | 38.31 | 38.45 | 27,72 | - |
ФлагАльфа/Атом-7Б | Лама-2-7Б | 0,1Т | 49,96 | 41.10 | 39,83 | 33.00 | - |
IDEA-CCNL/Зия-LLaMA-13B-v1.1 | Лама-13Б | 0,11Т | 50,25 | 40,99 | 40.04 | 30.54 | - |
Колоссальный-LLaMA-2-7b-база | Лама-2-7Б | 0,0085Т | 53.06 | 49,89 | 51,48 | 58,82 | 50,2 |
Колоссальный-LLaMA-2-13b-база | Лама-2-13Б | 0,025Т | 56,42 | 61,80 | 54,69 | 69,53 | 60,3 |
ColossalChat: решение с открытым исходным кодом для клонирования ChatGPT с полным конвейером RLHF. [код] [блог] [демо] [учебник]
До 10 раз быстрее при обучении RLHF PPO Stage3
До 7,73 раза быстрее при обучении одного сервера и в 1,42 раза быстрее при обработке выводов с использованием одного графического процессора.
До 10,3-кратного увеличения производительности модели на одном графическом процессоре
Для мини-демонстрационного процесса обучения требуется всего 1,62 ГБ памяти графического процессора (любой графический процессор потребительского уровня).
Увеличьте производительность модели тонкой настройки до 3,7 раз на одном графическом процессоре.
Поддерживайте достаточно высокую скорость бега.
(вернуться к началу)
Ускорение моделей AIGC (AI-Generated Content), таких как Stable Diffusion v1 и Stable Diffusion v2.
Обучение: сократите потребление памяти Stable Diffusion до 5,6 раз и стоимость оборудования до 46 раз (от A100 до RTX3060).
Точная настройка DreamBooth: персонализируйте свою модель, используя всего 3–5 изображений желаемого объекта.
Вывод: Уменьшите потребление памяти графического процессора в 2,5 раза.
(вернуться к началу)
Ускорение структуры белка AlphaFold
FastFold: ускорение обучения и вывода на кластерах графических процессоров, более быстрая обработка данных, последовательность вывода, содержащая более 10 000 остатков.
FastFold с Intel: ускорение вывода в 3 раза и снижение затрат на 39%.
xTrimoMultimer: ускорение прогнозирования структуры белковых мономеров и мультимеров в 11 раз.
(вернуться к началу)
Обучение модели LLaMA3 с 70 миллиардами параметров ускорено на 18 % [код] [GPU Cloud Playground] [Изображение LLaMA3]
Обучение модели LLaMA2 с 70 миллиардами параметров ускорено на 195 % [код] [блог]
Предварительное обучение больших моделей с 65 миллиардами параметров ускорено на 38% [код] [блог]
Улучшенный параллелизм MoE, обучение модели MoE с открытым исходным кодом может быть в 9 раз более эффективным [код] [блог]
Экономия ресурсов графического процессора на 50 % и ускорение на 10,7 %.
В 11 раз меньше потребления памяти графического процессора и сверхлинейная эффективность масштабирования с помощью тензорного параллелизма.
Размер модели в 24 раза больше на том же оборудовании
ускорение более чем в 3 раза
Обучение в 2 раза быстрее или длина последовательности на 50 % длиннее.
PaLM-colossalai: масштабируемая реализация языковой модели Google Pathways (PaLM).
Open Pretrained Transformer (OPT), языковая модель искусственного интеллекта с 175 миллиардами параметров, выпущенная Meta, которая стимулирует программистов искусственного интеллекта выполнять различные последующие задачи и развертывать приложения из-за общедоступных предварительно обученных весов модели.
Ускорение на 45 % и точная настройка OPT при низких затратах на линии. [Пример] [Онлайн-обслуживание]
Пожалуйста, посетите нашу документацию и примеры для получения более подробной информации.
Размер пакета в 14 раз больше и обучение тензорному параллелизму в 5 раз быстрее = 64
Кэшированное внедрение: используйте программный кеш для обучения больших таблиц внедрения с меньшим бюджетом памяти графического процессора.
(вернуться к началу)
Размер модели в 20 раз больше на том же оборудовании
Размер модели в 120 раз больше на том же оборудовании (RTX 3080)
Размер модели в 34 раза больше на том же оборудовании
(вернуться к началу)
Скорость вывода больших моделей ИИ увеличилась вдвое по сравнению с производительностью автономного вывода vLLM в некоторых случаях. [код] [блог] [Облачная площадка графического процессора] [Изображение LLaMA3]
Вывод Grok-1 с 314 миллиардами параметров, ускоренный в 3,8 раза, простая в использовании версия Python + PyTorch + HuggingFace для вывода.
[код] [блог] [Вес модели HuggingFace Grok-1 PyTorch] [Вес модели ModelScope Grok-1 PyTorch]
SwiftInfer: производительность вывода улучшена на 46%, решение с открытым исходным кодом превышает ограничение длины LLM для многораундовых разговоров
(вернуться к началу)
Требования:
ПиТорч >= 2.2
Питон >= 3,7
КУДА >= 11,0
Вычислительные возможности графического процессора NVIDIA >= 7,0 (V100/RTX20 и выше)
ОС Linux
Если у вас возникнут какие-либо проблемы с установкой, вы можете поднять проблему в этом репозитории.
Вы можете легко установить Colossal-AI с помощью следующей команды. По умолчанию мы не создаем расширения PyTorch во время установки.
pip install колоссалай
Примечание. На данный момент поддерживается только Linux.
Однако, если вы хотите собрать расширения PyTorch во время установки, вы можете установить BUILD_EXT=1
.
BUILD_EXT=1 пункт, колоссальная установка
В противном случае ядра CUDA будут созданы во время выполнения, когда они вам действительно понадобятся.
Мы также продолжаем выпускать ночную версию PyPI каждую неделю. Это позволит вам получить доступ к невыпущенным функциям и исправлениям ошибок в основной ветке. Установка может быть произведена через
pip install colossalai-nightly
Версия Colossal-AI будет соответствовать основной ветке репозитория. Не стесняйтесь поднимать вопрос, если у вас возникнут какие-либо проблемы. :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install colossalaipip install .
По умолчанию мы не компилируем ядра CUDA/C++. ColossalAI создаст их во время выполнения. Если вы хотите установить и включить объединение ядра CUDA (обязательная установка при использовании объединенного оптимизатора):
BUILD_EXT=установка на 1 пункт.
Пользователи с CUDA 10.2 по-прежнему могут собрать ColossalAI из исходного кода. Однако вам необходимо вручную загрузить библиотеку cub и скопировать ее в соответствующий каталог.
# клонируем репозиторийgit clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# загрузите библиотеку cub wget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip разархивировать 1.8.0.zip cp -r cub-1.8.0/cub/colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install .
(вернуться к началу)
Вы можете напрямую получить образ Docker с нашей страницы DockerHub. Изображение автоматически загружается после выпуска.
Выполните следующую команду, чтобы создать образ Docker из предоставленного Dockerfile.
Для создания Colossal-AI с нуля требуется поддержка графического процессора. Вам необходимо использовать Nvidia Docker Runtime по умолчанию при
docker build
. Более подробную информацию можно найти здесь. Мы рекомендуем вам установить Colossal-AI напрямую со страницы нашего проекта.
компакт-диск ColossalAI docker build -t colossalai ./docker
Выполните следующую команду, чтобы запустить Docker-контейнер в интерактивном режиме.
docker run -ti --gpus all --rm --ipc=хост colossalai bash
(вернуться к началу)
Присоединяйтесь к сообществу Colossal-AI на форуме, в Slack и WeChat (微信), чтобы делиться своими предложениями, отзывами и вопросами с нашей командой инженеров.
Ссылаясь на успешные попытки BLOOM и Stable Diffusion, все разработчики и партнеры, обладающие вычислительными мощностями, наборами данных и моделями, могут присоединиться и создать сообщество Colossal-AI, прилагая усилия к эпохе больших моделей ИИ!
Вы можете связаться с нами или принять участие следующими способами:
Оставлю звезду, чтобы показать свой лайк и поддержку. Спасибо!
Публикуя проблему или отправляя PR на GitHub, следуйте рекомендациям в разделе «Внесение вклада».
Отправьте свое официальное предложение на адрес электронной почты [email protected].
Огромное спасибо всем нашим замечательным участникам!
(вернуться к началу)
Мы используем возможности GitHub Actions для автоматизации рабочих процессов разработки, выпуска и развертывания. Ознакомьтесь с этой документацией о том, как работают автоматизированные рабочие процессы.
Этот проект вдохновлен некоторыми связанными проектами (некоторые из которых созданы нашей командой, а некоторые - другими организациями). Мы хотели бы отметить эти замечательные проекты, перечисленные в Списке рекомендаций.
Чтобы процитировать этот проект, вы можете использовать следующую цитату BibTeX.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
Colossal-AI был принят в качестве официального руководства ведущими конференциями NeurIPS, SC, AAAI, PPoPP, CVPR, ISC, NVIDIA GTC и т. д.
(вернуться к началу)