في الآونة الأخيرة، تم إصدار العديد من النماذج الأساسية التي تعمل بمثابة العقل المدبر للذكاء الاصطناعي التوليدي، وتقوم العديد من الشركات بمراجعة أو تطوير التطبيقات التي تستخدم النماذج الأساسية. ومع ذلك، ليس من السهل استنتاج النماذج واسعة النطاق على وحدة معالجة رسومات واحدة، وليس من السهل خدمتها للإنتاج أو ضبطها.
تمت كتابة هذا التدريب العملي لأولئك الذين يرغبون في مراجعة Geneative AI بسرعة وتطبيقه على الإنتاج، مما يوفر دليلًا خطوة بخطوة حول كيفية تقديم الخدمة بكفاءة وضبط النماذج الكورية واسعة النطاق على البنية التحتية لـ AWS.
1_prepare-dataset-alpaca-method.ipynb
: قم بإعداد مجموعة بيانات التدريب من مجموعة بيانات التعليمات. هذه الطريقة ترمز إلى كل عينة.1_prepare-dataset-chunk-method.ipynb
: قم بإعداد مجموعة بيانات التدريب من مجموعة بيانات التعليمات. تقوم هذه الطريقة بتسلسل جميع العينات وتقسيمها وفقًا لحجم القطعة.2_local-train-debug-lora.ipynb
: قم بتصحيح الأخطاء باستخدام بعض نماذج البيانات في بيئة التطوير قبل الأداء الجاد في مثيلات التدريب. إذا كنت معتادًا على الضبط الدقيق، فيرجى تخطي هذا التدريب العملي والمضي قدمًا في 3_sm-train-lora.ipynb.3_sm-train-lora.ipynb
: إجراء الضبط الدقيق لمثيلات تدريب SageMaker. 1_local-inference.ipynb
: تحميل النموذج من Hugging Face Hub وتنفيذ الاستدلال البسيط. على الرغم من أن ذلك ليس مطلوبًا، إلا أننا نوصي بالبدء بهذه الدورة إذا كنت ترغب في تجربة النموذج.2_local-inference-deepspeed.py
& 2_run.sh
: قم بتجربة الاستدلال الموزع DeepSpeed. يوصى بمثيل أو خادم مزود بوحدات معالجة رسومات متعددة. (على سبيل المثال ml.g5.12xlarge
)3_sm-serving-djl-deepspeed-from-hub.ipynb
: تنفيذ عرض نموذج SageMaker باستخدام حاوية تقديم SageMaker DJL (مكتبة Deep Java) (الاستدلال الموزع لـ DeepSpeed). يقوم خادم الاستضافة بتنزيل النماذج مباشرةً من Hugging Face Hub.3_sm-serving-djl-deepspeed-from-hub.ipynb
: تنفيذ عرض نموذج SageMaker باستخدام حاوية تقديم SageMaker DJL (مكتبة Deep Java) (الاستدلال الموزع لـ DeepSpeed). يقوم خادم الاستضافة بتنزيل النموذج من S3. سرعة التنزيل سريعة جدًا لأنه يتم تنزيل الملفات بالتوازي داخليًا بواسطة s5cmd.3_sm-serving-tgi-from-hub.ipynb
: يقوم بتنفيذ عرض نموذج SageMaker باستخدام حاوية التقديم SageMaker TGI (Text Generation Inferface). TGI هو خادم استدلال موزع تم تطويره بواسطة Hugging Face ويظهر سرعة استدلال سريعة جدًا.3_sm-serving-djl-fastertransformer-nocode.ipynb
: تنفيذ عرض نموذج SageMaker باستخدام حاوية تقديم SageMaker DJL (مكتبة Java العميقة) (استدلال NVIDIA FasterTransformer الموزع). يُظهر سرعات أعلى من DeepSpeed فقط للنماذج المدعومة. لإجراء هذا التدريب العملي، نوصي بإعداد مثيل بالمواصفات أدناه.
وبدلاً من ذلك، يمكنك استخدام SageMaker Studio Lab أو SageMaker Studio.
ml.t3.medium
(الحد الأدنى من المواصفات)ml.m5.xlarge
(مستحسن)ml.g5.2xlarge
(الحد الأدنى للمواصفات)ml.g5.12xlarge
(مستحسن)ml.g5.2xlarge
: نموذج بمعلمات 7B أو أقلml.g5.12xlarge
(مستحسن) يتم توفير نموذج التعليمات البرمجية هذا بموجب ترخيص MIT-0. يرجى الرجوع إلى ملف الترخيص.