نشر LoRA
يوضح هذا المستودع كيفية خدمة العديد من عمليات التوزيع المستقرة المضبوطة بدقة من LoRA من؟ مكتبة الناشرين على نقطة نهاية الاستدلال على معانقة الوجه. نظرًا لأنه يتم إنتاج عدد قليل فقط من ميغابايت من نقاط التفتيش بعد الضبط الدقيق باستخدام LoRA، يمكننا تبديل نقاط تفتيش مختلفة من أجل نشر مستقر مختلف تم ضبطه بدقة بطرق فائقة السرعة وفعالة في الذاكرة وفعالة في مساحة القرص.
لأغراض العرض التوضيحي، قمت باختبار مستودعات Hugging Face Model التالية التي تحتوي على نقطة تفتيش LoRA مضبوطة بدقة ( pytorch_lora_weights.bin
):
- ethan_ai
- noto-emoji
- البوكيمون
دفتر
- دفتر ملاحظات تجريبي: يوضح كيفية كتابة واختبار معالج مخصص لـ Hugging Face Inference Endpoint في البيئات المحلية أو Colab
- دفتر الاستدلال: يوضح كيفية طلب الاستدلال إلى المعالج المخصص المنشور على Hugging Face Inference Endopint
- دفتر ملاحظات الاستدلال متعدد العمال: يوضح كيفية تشغيل الطلبات المتزامنة إلى المعالج المخصص المنشور على Hugging Face Inference Endpoint في بيئة Colab
معالج مخصص
- Handler.py: المعالج الأساسي. لقد ثبت أن هذا المعالج المخصص يعمل مع مستودع Hugging Face Model
- multiworker_handler.py: معالج متقدم مع تجمع متعدد العمال (انتشار مستقر). لقد ثبت أن هذا المعالج المخصص يعمل مع مستودع Hugging Face Model
البرنامج النصي
- inference.py: برنامج نصي Python مستقل لإرسال الطلبات إلى المعالج المخصص المنتشر على Hugging Face Inference Endpoint
مرجع
- https://huggingface.co/blog/lora