| الإنجليزية | 中文 |
يمكنك الوصول إلى الحوسبة المتطورة حسب الطلب لأبحاثك على الفور، دون الحاجة إلى أي إعداد.
سجل الآن واحصل على 10 دولارات ائتمانية!
المكافآت الأكاديمية المحدودة:
قم بتعبئة 1000 دولار واحصل على 300 نقطة
قم بتعبئة 500 دولار واحصل على 100 نقطة
[2024/10] كيفية إنشاء تطبيق منخفض التكلفة يشبه تطبيق Sora؟ حلول لك
[2024/09] حصلت شركة HPC-AI Tech الناشئة في سنغافورة على تمويل بقيمة 50 مليون دولار أمريكي في السلسلة A لبناء نموذج الذكاء الاصطناعي لجيل الفيديو ومنصة وحدة معالجة الرسومات
[2024/09] يتطلب تقليل تكاليف التدريب على النماذج الكبيرة للذكاء الاصطناعي بنسبة 30% سطرًا واحدًا فقط من التعليمات البرمجية من ترقيات التدريب الدقيق المختلط FP8
[2024/06] تواصل Open-Sora المصدر المفتوح: قم بإنشاء أي فيديو عالي الدقة مدته 16 ثانية بدقة 720 بكسل بنقرة واحدة، وأوزان النموذج جاهزة للاستخدام
[2024/05] تضاعفت سرعة استنتاج نماذج الذكاء الاصطناعي الكبيرة، وإصدار مفتوح المصدر للاستدلال الهائل
[2024/04] Open-Sora تكشف عن ترقية رئيسية: اعتماد المصدر المفتوح مع إنشاء فيديو بلقطة واحدة مدتها 16 ثانية ودقة 720 بكسل
[2024/04] الحلول الأكثر فعالية من حيث التكلفة للاستدلال والضبط والتدريب المسبق، والمصممة خصيصًا لسلسلة LLaMA3
لماذا Colossal-AI
سمات
Colossal-AI لتطبيقات العالم الحقيقي
Open-Sora: الكشف عن معلمات النموذج الكاملة وتفاصيل التدريب وكل شيء لنماذج إنشاء الفيديو المشابهة لـ Sora
Colossal-LLaMA-2: نصف يوم من التدريب باستخدام بضع مئات من الدولارات يؤدي إلى نتائج مماثلة للنماذج الكبيرة السائدة، وحلول Llm مفتوحة المصدر وخالية من التجارة
ColossalChat: حل مفتوح المصدر لاستنساخ ChatGPT مع خط أنابيب RLHF كامل
AIGC: تسريع الانتشار المستقر
الطب الحيوي: تسريع بنية البروتين AlphaFold
عرض التدريب الموازي
لاما 1/2/3
وزارة التربية والتعليم
جي بي تي-3
جي بي تي-2
بيرت
نخل
الأراضي الفلسطينية المحتلة
فيتامين
نماذج نظام التوصية
عرض تدريبي فردي لوحدة معالجة الرسومات
جي بي تي-2
نخل
الاستدلال
الاستدلال الهائل: تضاعفت سرعة استنتاج نماذج الذكاء الاصطناعي الكبيرة
Grok-1: نموذج 314B من PyTorch + HuggingFace Inference
SwiftInfer: يكسر الحد الأقصى لطول LLM للمحادثات متعددة الجولات مع تسريع بنسبة 46%
تثبيت
بايبي
التثبيت من المصدر
استخدم عامل الميناء
مجتمع
المساهمة
استشهد بنا
البروفيسور جيمس ديميل (جامعة كاليفورنيا في بيركلي): Colossal-AI يجعل تدريب نماذج الذكاء الاصطناعي فعالاً وسهلاً وقابلاً للتطوير.
(العودة إلى الأعلى)
يوفر لك Colossal-AI مجموعة من المكونات المتوازية. نحن نهدف إلى دعمك في كتابة نماذج التعلم العميق الموزعة تمامًا مثل الطريقة التي تكتب بها نموذجك على الكمبيوتر المحمول الخاص بك. نحن نقدم أدوات سهلة الاستخدام لبدء التدريب الموزع والاستدلال في بضعة أسطر.
استراتيجيات التوازي
توازي البيانات
توازي خطوط الأنابيب
1D، 2D، 2.5D، 3D التوازي الموتر
تسلسل التوازي
محسن التكرار الصفري (ZeRO)
التوازي التلقائي
إدارة الذاكرة غير المتجانسة
باتريك ستار
الاستخدام الودي
التوازي على أساس ملف التكوين
(العودة إلى الأعلى)
Open-Sora: الكشف عن معلمات النموذج الكاملة وتفاصيل التدريب وكل شيء لنماذج إنشاء الفيديو المشابهة لـ Sora [كود] [مدونة] [أوزان النماذج] [عرض توضيحي] [GPU Cloud Playground] [صورة OpenSora]
(العودة إلى الأعلى)
[ملعب GPU السحابي] [صورة LLaMA3]
7 ب: نصف يوم من التدريب باستخدام بضع مئات من الدولارات يؤدي إلى نتائج مماثلة لتعميم النماذج الكبيرة وحلول LLM مفتوحة المصدر وخالية من الإعلانات التجارية. [كود] [مدونة] [أوزان نموذج HuggingFace] [أوزان نموذج Modelscope]
13B: إنشاء نموذج خاص محسّن لـ 13B بتكلفة 5000 دولار أمريكي فقط. [كود] [مدونة] [أوزان نموذج HuggingFace] [أوزان نموذج Modelscope]
نموذج | العمود الفقري | الرموز المستهلكة | MMLU (5 طلقة) | CMMLU (5 طلقة) | أجيفال (5 طلقات) | جاوكاو (0-تسديدة) | سيفال (5 طلقات) |
---|---|---|---|---|---|---|---|
بايتشوان-7ب | - | 1.2 طن | 42.32 (42.30) | 44.53 (44.02) | 38.72 | 36.74 | 42.80 |
قاعدة بايتشوان-13بي | - | 1.4 طن | 50.51 (51.60) | 55.73 (55.30) | 47.20 | 51.41 | 53.60 |
قاعدة بايتشوان 2-7 بي | - | 2.6 طن | 46.97 (54.16) | 57.67 (57.07) | 45.76 | 52.60 | 54.00 |
قاعدة بايتشوان 2-13 بي | - | 2.6 طن | 54.84 (59.17) | 62.62 (61.97) | 52.08 | 58.25 | 58.10 |
الدردشةGLM-6B | - | 1.0 طن | 39.67 (40.63) | 41.17 (-) | 40.10 | 36.53 | 38.90 |
الدردشةGLM2-6B | - | 1.4 طن | 44.74 (45.46) | 49.40 (-) | 46.36 | 45.49 | 51.70 |
إنترLM-7B | - | 1.6 طن | 46.70 (51.00) | 52.00 (-) | 44.77 | 61.64 | 52.80 |
كوين-7ب | - | 2.2 طن | 54.29 (56.70) | 56.03 (58.80) | 52.47 | 56.42 | 59.60 |
اللاما-2-7ب | - | 2.0 طن | 44.47 (45.30) | 32.97 (-) | 32.60 | 25.46 | - |
لينلي-AI/صيني-LLaMA-2-7B-hf | اللاما-2-7ب | 1.0 طن | 37.43 | 29.92 | 32.00 | 27.57 | - |
ينجي-الأبحاث/yayi-7b-llama2 | اللاما-2-7ب | - | 38.56 | 31.52 | 30.99 | 25.95 | - |
زيكينجيانج/اللاما الصينية-2-7ب | اللاما-2-7ب | - | 33.86 | 34.69 | 34.52 | 25.18 | 34.2 |
TigerResearch/tigerbot-7b-base | اللاما-2-7ب | 0.3 طن | 43.73 | 42.04 | 37.64 | 30.61 | - |
LinkSoul/الصينية-Llama-2-7b | اللاما-2-7ب | - | 48.41 | 38.31 | 38.45 | 27.72 | - |
فلاجألفا/أتوم-7ب | اللاما-2-7ب | 0.1 ت | 49.96 | 41.10 | 39.83 | 33.00 | - |
IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | لاما-13ب | 0.11 ت | 50.25 | 40.99 | 40.04 | 30.54 | - |
كولوسال-LLaMA-2-7b-base | اللاما-2-7ب | 0.0085 طن | 53.06 | 49.89 | 51.48 | 58.82 | 50.2 |
كولوسال-LLaMA-2-13b-base | اللاما-2-13ب | 0.025 طن | 56.42 | 61.80 | 54.69 | 69.53 | 60.3 |
ColossalChat: حل مفتوح المصدر لاستنساخ ChatGPT باستخدام خط أنابيب RLHF كامل. [كود] [مدونة] [عرض توضيحي] [برنامج تعليمي]
ما يصل إلى 10 مرات أسرع لتدريب RLHF PPO Stage3
أسرع بما يصل إلى 7.73 مرة للتدريب على خادم واحد وأسرع 1.42 مرة للاستدلال على وحدة معالجة الرسومات الفردية
نمو يصل إلى 10.3x في سعة الطراز على وحدة معالجة رسومات واحدة
تتطلب عملية التدريب التجريبي المصغر 1.62 جيجابايت فقط من ذاكرة وحدة معالجة الرسومات (أي وحدة معالجة رسومات على مستوى المستهلك)
قم بزيادة سعة نموذج الضبط الدقيق بما يصل إلى 3.7 مرة على وحدة معالجة الرسومات الواحدة
حافظ على سرعة تشغيل عالية بما فيه الكفاية
(العودة إلى الأعلى)
تسريع نماذج AIGC (المحتوى المولد بواسطة الذكاء الاصطناعي) مثل Stable Diffusion v1 وStable Diffusion v2.
التدريب: تقليل استهلاك ذاكرة Stable Diffusion بما يصل إلى 5.6x وتكلفة الأجهزة بما يصل إلى 46x (من A100 إلى RTX3060).
DreamBooth Fine-tuning: قم بتخصيص النموذج الخاص بك باستخدام 3-5 صور فقط للموضوع المطلوب.
الاستدلال: تقليل استهلاك ذاكرة GPU الاستدلالية بمقدار 2.5x.
(العودة إلى الأعلى)
تسريع بنية البروتين AlphaFold
FastFold: تسريع التدريب والاستدلال على مجموعات GPU، ومعالجة البيانات بشكل أسرع، وتسلسل الاستدلال الذي يحتوي على أكثر من 10000 وحدة بنائية.
FastFold مع Intel: تسريع الاستدلال 3x وخفض التكلفة بنسبة 39%.
xTrimoMultimer: تسريع التنبؤ ببنية مونومرات البروتين والمتعددات بمقدار 11x.
(العودة إلى الأعلى)
تسريع التدريب على نموذج LLaMA3 المكون من 70 مليار معلمة بنسبة 18% [كود] [GPU Cloud Playground] [صورة LLaMA3]
تسريع التدريب على نموذج LLaMA2 المكون من 70 مليار معلمة بنسبة 195% [كود] [مدونة]
تسريع التدريب المسبق للنموذج الكبير الذي يحتوي على 65 مليار معلمة بنسبة 38% [كود] [مدونة]
تحسين موازاة وزارة التربية والتعليم، يمكن أن يكون التدريب النموذجي مفتوح المصدر لوزارة التربية والتعليم أكثر كفاءة بتسع مرات [كود] [مدونة]
وفر 50% من موارد وحدة معالجة الرسومات و10.7% من التسارع
استهلاك أقل لذاكرة وحدة معالجة الرسومات بمقدار 11 مرة، وكفاءة القياس الخطي الفائق مع Tensor Parallelism
حجم نموذج أكبر بمقدار 24 مرة على نفس الجهاز
أكثر من 3X التسارع
تدريب أسرع مرتين، أو طول تسلسل أطول بنسبة 50%
PaLM-colossalai: تنفيذ قابل للتطوير لنموذج لغة مسارات Google (PaLM).
Open Pretrained Transformer (OPT)، وهو نموذج لغة ذكاء اصطناعي مكون من 175 مليار معلمة تم إصداره بواسطة Meta، والذي يحفز مبرمجي الذكاء الاصطناعي على أداء العديد من المهام النهائية ونشر التطبيقات بسبب أوزان النماذج العامة المدربة مسبقًا.
تسريع عملية ضبط الأراضي الفلسطينية المحتلة بنسبة 45% بتكلفة منخفضة في الخطوط. [مثال] [الخدمة عبر الإنترنت]
يرجى زيارة الوثائق والأمثلة لدينا لمزيد من التفاصيل.
حجم دفعة أكبر 14x، وتدريب أسرع 5x لتوازي Tensor = 64
التضمين المخزن مؤقتًا، استخدم ذاكرة التخزين المؤقت للبرنامج لتدريب جداول التضمين الأكبر بميزانية ذاكرة أصغر لوحدة معالجة الرسومات.
(العودة إلى الأعلى)
حجم نموذج أكبر 20 مرة على نفس الجهاز
حجم طراز أكبر بمقدار 120 مرة على نفس الجهاز (RTX 3080)
حجم نموذج أكبر بمقدار 34 مرة على نفس الجهاز
(العودة إلى الأعلى)
تضاعفت سرعة استنتاج نماذج الذكاء الاصطناعي الكبيرة، مقارنة بأداء الاستدلال دون اتصال بالإنترنت لـ vLLM في بعض الحالات. [كود] [مدونة] [GPU Cloud Playground] [صورة LLaMA3]
314 مليار معلمة Grok-1 Inference تم تسريعها بمقدار 3.8x، وهو إصدار Python + PyTorch + HuggingFace سهل الاستخدام للاستدلال.
[كود] [مدونة] [أوزان نموذج HuggingFace Grok-1 PyTorch] [أوزان نموذج ModelScope Grok-1 PyTorch]
SwiftInfer: تحسن أداء الاستدلال بنسبة 46%، ويكسر الحل مفتوح المصدر الحد الأقصى لطول LLM للمحادثات متعددة الجولات
(العودة إلى الأعلى)
متطلبات:
باي تورش >= 2.2
بايثون >= 3.7
كودا >= 11.0
القدرة الحسابية لوحدة معالجة الرسومات NVIDIA >= 7.0 (V100/RTX20 والإصدارات الأحدث)
نظام التشغيل لينكس
إذا واجهت أي مشكلة في التثبيت، فقد ترغب في إثارة مشكلة في هذا المستودع.
يمكنك بسهولة تثبيت Colossal-AI باستخدام الأمر التالي. افتراضيًا، نحن لا نبني امتدادات PyTorch أثناء التثبيت.
نقطة تثبيت هائلة
ملاحظة: يتم دعم نظام Linux فقط في الوقت الحالي.
ومع ذلك، إذا كنت تريد إنشاء ملحقات PyTorch أثناء التثبيت، فيمكنك تعيين BUILD_EXT=1
.
BUILD_EXT=1 نقطة تثبيت هائلة
بخلاف ذلك، سيتم إنشاء نواة CUDA أثناء وقت التشغيل عندما تحتاج إليها بالفعل.
نستمر أيضًا في إصدار النسخة الليلية إلى PyPI كل أسبوع. يتيح لك هذا الوصول إلى الميزات التي لم يتم إصدارها وإصلاحات الأخطاء في الفرع الرئيسي. يمكن أن يتم التثبيت عن طريق
نقطة تثبيت هائلة ليلا
سيكون إصدار Colossal-AI متوافقًا مع الفرع الرئيسي للمستودع. لا تتردد في إثارة قضية إذا واجهت أي مشاكل. :)
git clone https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# تثبيت colossalaipip install .
بشكل افتراضي، نحن لا نقوم بتجميع نواة CUDA/C++. ستقوم ColossalAI ببنائها أثناء وقت التشغيل. إذا كنت ترغب في تثبيت وتمكين CUDA kernel fusion (التثبيت الإلزامي عند استخدام المُحسِّن المدمج):
BUILD_EXT=تثبيت نقطة واحدة.
بالنسبة للمستخدمين الذين يستخدمون CUDA 10.2، لا يزال بإمكانك إنشاء ColossalAI من المصدر. ومع ذلك، تحتاج إلى تنزيل مكتبة الشبل يدويًا ونسخها إلى الدليل المقابل.
# استنساخ نسخة repositorygit https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# تنزيل مكتبة الشبلwget https://github.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip فك الضغط 1.8.0.zip cp -r cub-1.8.0/cub/ colossalai/kernel/cuda_native/csrc/kernels/include/# installBUILD_EXT=1 pip install .
(العودة إلى الأعلى)
يمكنك سحب صورة عامل الإرساء مباشرة من صفحة DockerHub الخاصة بنا. يتم تحميل الصورة تلقائيًا عند الإصدار.
قم بتشغيل الأمر التالي لإنشاء صورة عامل إرساء من Dockerfile المتوفرة.
يتطلب إنشاء Colossal-AI من البداية دعم GPU، وتحتاج إلى استخدام Nvidia Docker Runtime كإعداد افتراضي عند إنشاء
docker build
. يمكن العثور على مزيد من التفاصيل هنا. ننصحك بتثبيت Colossal-AI من صفحة مشروعنا مباشرة.
مؤتمر نزع السلاح ColossalAI docker build -t colossalai ./docker
قم بتشغيل الأمر التالي لبدء حاوية الإرساء في الوضع التفاعلي.
docker run -ti --gpus all --rm --ipc=host colossalai bash
(العودة إلى الأعلى)
انضم إلى مجتمع Colossal-AI على Forum وSlack وWeChat(微信) لمشاركة اقتراحاتك وملاحظاتك وأسئلتك مع فريقنا الهندسي.
بالإشارة إلى المحاولات الناجحة لـ BLOOM وStable Diffusion، نرحب بأي وجميع المطورين والشركاء الذين يتمتعون بقدرات حاسوبية ومجموعات بيانات ونماذج للانضمام إلى مجتمع Colossal-AI وبنائه، وبذل الجهود نحو عصر نماذج الذكاء الاصطناعي الكبيرة!
يمكنك الاتصال بنا أو المشاركة بالطرق التالية:
ترك نجمة لإظهار إعجابك ودعمك. شكرًا!
إن نشر مشكلة أو إرسال علاقات عامة على GitHub اتبع الإرشادات الموجودة في المساهمة
أرسل مقترحك الرسمي إلى البريد الإلكتروني [email protected]
شكرا جزيلا لجميع المساهمين المذهلين لدينا!
(العودة إلى الأعلى)
نحن نستفيد من قوة إجراءات GitHub لأتمتة سير عمل التطوير والإصدار والنشر. يرجى مراجعة هذه الوثائق حول كيفية تشغيل سير العمل الآلي.
هذا المشروع مستوحى من بعض المشاريع ذات الصلة (بعضها من قبل فريقنا وبعضها من قبل منظمات أخرى). نود أن ننسب الفضل إلى هذه المشاريع المذهلة كما هي مدرجة في القائمة المرجعية.
للاستشهاد بهذا المشروع، يمكنك استخدام اقتباس BibTeX التالي.
@inproceedings{10.1145/3605573.3605613, author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang}, title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training}, year = {2023}, isbn = {9798400708435}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3605573.3605613}, doi = {10.1145/3605573.3605613}, abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.}, booktitle = {Proceedings of the 52nd International Conference on Parallel Processing}, pages = {766–775}, numpages = {10}, keywords = {datasets, gaze detection, text tagging, neural networks}, location = {Salt Lake City, UT, USA}, series = {ICPP '23} }
تم قبول Colossal-AI كبرنامج تعليمي رسمي من قبل أهم المؤتمرات NeurIPS وSC وAAAI وPPoPP وCVPR وISC وNVIDIA GTC وما إلى ذلك.
(العودة إلى الأعلى)