باستخدام التصميم ثلاثي الأنابيب، هذا ما ستتعلم بناءه في هذه الدورة ↓
خط أنابيب التدريب الذي:
يتم نشر مسار التدريب باستخدام Beam كبنية تحتية لوحدة معالجة الرسومات (GPU) بدون خادم.
-> موجود ضمن الدليل modules/training_pipeline
.
ملاحظة: لا تقلق إذا لم يكن لديك الحد الأدنى من متطلبات الأجهزة. سنوضح لك كيفية نشر مسار التدريب على البنية التحتية بدون خادم لشركة Beam وتدريب LLM هناك.
خط أنابيب الميزات في الوقت الحقيقي الذي:
يتم نشر مسار البث تلقائيًا على جهاز AWS EC2 باستخدام مسار CI/CD المدمج في إجراءات GitHub.
-> موجود ضمن دليل modules/streaming_pipeline
.
خط أنابيب الاستدلال الذي يستخدم LangChain لإنشاء سلسلة:
يتم نشر خط أنابيب الاستدلال باستخدام Beam كبنية تحتية لوحدة معالجة الرسومات بدون خادم، مثل RESTful API. كما أنه مضمن ضمن واجهة مستخدم للأغراض التجريبية، ويتم تنفيذه في Gradio.
-> موجود ضمن دليل modules/financial_bot
.
ملاحظة: لا تقلق إذا لم يكن لديك الحد الأدنى من متطلبات الأجهزة. سنوضح لك كيفية نشر خط أنابيب الاستدلال على البنية التحتية بدون خادم لـ Beam واستدعاء LLM من هناك.
استخدمنا GPT3.5
لإنشاء مجموعة بيانات للأسئلة والأجوبة المالية لضبط ماجستير إدارة الأعمال مفتوح المصدر الخاص بنا للتخصص في استخدام المصطلحات المالية والإجابة على الأسئلة المالية. يُعرف استخدام LLM كبير، مثل GPT3.5
لإنشاء مجموعة بيانات تدرب LLM أصغر (على سبيل المثال، Falcon 7B) بالضبط الدقيق بالتقطير .
→ لفهم كيفية إنشاء مجموعة بيانات الأسئلة والأجوبة المالية، راجع هذه المقالة التي كتبها باو لابارتا.
→ للاطلاع على تحليل كامل لمجموعة بيانات الأسئلة والأجوبة المالية، راجع القسم الفرعي لتحليل مجموعة البيانات في الدورة التدريبية التي كتبها Alexandru Razvant.
قبل الغوص في الوحدات، عليك إعداد عدة أدوات خارجية إضافية للدورة.
ملاحظة: يمكنك إعدادها أثناء تقدمك لكل وحدة، حيث سنوجهك في كل وحدة إلى ما تحتاجه.
financial news data source
اتبع هذا المستند لتوضيح كيفية إنشاء حساب مجاني وإنشاء مفاتيح واجهة برمجة التطبيقات (API Keys) التي ستحتاجها في هذه الدورة التدريبية.
ملحوظة: 1x اتصال بيانات Alpaca مجاني.
serverless vector DB
انتقل إلى Qdrant وقم بإنشاء حساب مجاني.
بعد ذلك، اتبع هذا المستند حول كيفية إنشاء مفاتيح API التي ستحتاجها في هذه الدورة التدريبية.
ملحوظة: سوف نستخدم فقط خطة Qdrant المجانية.
serverless ML platform
انتقل إلى Comet ML وقم بإنشاء حساب مجاني.
بعد ذلك، اتبع هذا الدليل لإنشاء API KEY ومشروع جديد ستحتاج إليه خلال الدورة التدريبية.
ملاحظة: سنستخدم فقط خطة Freemium الخاصة بـ Comet ML.
serverless GPU compute | training & inference pipelines
انتقل إلى Beam وقم بإنشاء حساب مجاني.
بعد ذلك، يجب عليك اتباع دليل التثبيت الخاص بهم لتثبيت واجهة سطر الأوامر الخاصة بهم وتكوينها باستخدام بيانات اعتماد Beam الخاصة بك.
لقراءة المزيد عن Beam، إليك دليل تمهيدي.
ملاحظة: لديك ما يقرب من 10 ساعات حوسبة مجانية. وبعد ذلك، تدفع فقط مقابل ما تستخدمه. إذا كان لديك Nvidia GPU > 8 GB VRAM ولا تريد نشر مسارات التدريب والاستدلال، فإن استخدام Beam اختياري.
عند استخدام Poetry، واجهنا مشكلات في تحديد موقع Beam CLI داخل بيئة Poetry الافتراضية. لإصلاح ذلك، بعد تثبيت Beam، قمنا بإنشاء رابط رمزي يشير إلى ثنائيات الشعر، كما يلي:
export COURSE_MODULE_PATH= < your-course-module-path > # e.g., modules/training_pipeline
cd $COURSE_MODULE_PATH
export POETRY_ENV_PATH= $( dirname $( dirname $( poetry run which python ) ) )
ln -s /usr/local/bin/beam ${POETRY_ENV_PATH} /bin/beam
cloud compute | feature pipeline
انتقل إلى AWS، وقم بإنشاء حساب، وقم بإنشاء زوج من بيانات الاعتماد.
بعد ذلك، قم بتنزيل AWS CLI v2.11.22 وتثبيته وقم بتكوينه باستخدام بيانات الاعتماد الخاصة بك.
ملاحظة: سوف تدفع فقط مقابل ما تستخدمه. لن تقوم إلا بنشر جهاز t2.small
EC2 VM، والذي يبلغ سعره ~$0.023
في الساعة فقط. إذا كنت لا ترغب في نشر مسار الميزات، فإن استخدام AWS يعد أمرًا اختياريًا.
كل وحدة لها تبعياتها ونصوصها. في إعداد الإنتاج، سيكون لكل وحدة مستودعها الخاص، ولكن في حالة الاستخدام هذه، ولأغراض التعلم، نضع كل شيء في مكان واحد:
وبالتالي، قم بمراجعة الملف README لكل وحدة على حدة لمعرفة كيفية تثبيتها واستخدامها:
نحن نشجعك بشدة على استنساخ هذا المستودع وتكرار كل ما فعلناه لتحقيق أقصى استفادة من هذه الدورة.
ستجد في محاضرات الفيديو والمقالات ووثائق README الخاصة بكل وحدة تعليمات خطوة بخطوة.
تعلم سعيد!
إن كود GitHub (الذي تم إصداره بموجب ترخيص MIT) ومحاضرات الفيديو (التي تم إصدارها على YouTube) مجانية تمامًا. سوف يكون دائما.
يتم إصدار دروس Medium تحت جدار Medium المدفوع. إذا كان لديك بالفعل، فهي مجانية. بخلاف ذلك، يجب عليك دفع رسوم شهرية قدرها 5 دولارات لقراءة المقالات.
إذا كانت لديك أي أسئلة أو مشكلات أثناء الدورة، فنحن نشجعك على إنشاء مشكلة في هذا المستودع حيث يمكنك شرح كل ما تحتاجه بعمق.
بخلاف ذلك، يمكنك أيضًا التواصل مع المعلمين على LinkedIn:
انقر هنا لمشاهدة الفيديو؟
انقر هنا لمشاهدة الفيديو؟
انقر هنا لمشاهدة الفيديو؟
انقر هنا لمشاهدة الفيديو؟
انقر هنا لمشاهدة الفيديو؟
To understand the entire code step-by-step, check out our articles
↓
هذه الدورة عبارة عن مشروع مفتوح المصدر تم إصداره بموجب ترخيص MIT. وبالتالي، طالما قمت بتوزيع ترخيصنا والاعتراف بعملنا، يمكنك استنساخ هذا المشروع أو تفرعه بأمان واستخدامه كمصدر للإلهام لأي شيء تريده (على سبيل المثال، مشاريع الجامعة، ومشاريع الشهادات الجامعية، وما إلى ذلك).
باو لابارتا باجو | كبير مهندسي ML وMLOps المعلم الرئيسي. الرجل من دروس الفيديو. ينكدين تويتر/X يوتيوب النشرة الإخبارية لتعلم الآلة في العالم الحقيقي موقع ML في العالم الحقيقي | |
الكسندرو رازفانت | مهندس أول ML الشيف الثاني. المهندس خلف الكواليس . ينكدين قفزات عصبية | |
بول يوستين | كبير مهندسي ML وMLOps الشيف الرئيسي. الرجال الذين ظهروا بشكل عشوائي في دروس الفيديو. ينكدين تويتر/X فك تشفير النشرة الإخبارية لتعلم الآلة الموقع الشخصي | مركز ML وMLOps |