تنزيل qwen2 in a lambda - تنزيل كود المصدر qwen2 in a lambda

العربية

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

الصفحة الرئيسية>المتعلقة بالبرمجة>كود الذكاء الاصطناعي

qwen2 in a lambda

كود الذكاء الاصطناعي

1.0.0

تنزيل

كوين في لامدا

تم التحديث بتاريخ 11/09/2024

(وضع علامة على التاريخ بسبب مدى سرعة تحرك LLM APIs في Python وقد يُدخل تغييرات جذرية بحلول الوقت الذي يقرأ فيه أي شخص آخر هذا!)

مقدمة:

هذا بحث بسيط حول كيفية وضع ملفات نموذج Qwen GGUF في AWS Lambda باستخدام Docker وSAM CLI
مقتبس من https://makit.net/blog/llm-in-a-lambda-function/
- اعتبارًا من 24 سبتمبر، لم يتم تضمين بعض حزم نظام التشغيل المطلوبة في الدليل أعلاه وبالتالي في ملف Dockerfile حيث من المحتمل أن لا يتضمن llama-cpp-python @ 0.2.90 حزم نظام التشغيل المطلوبة (؟)
- ومن يدري إذا كان هناك أي شيء جديد وعاجل سيظهر في المستقبل :shrugs:

تحفيز:

كنت أرغب في معرفة ما إذا كان بإمكاني تقليل إنفاقي على AWS من خلال الاستفادة فقط من إمكانات Lambda وليس Lambda + Bedrock حيث أن كلا الخدمتين ستتحملان المزيد من التكاليف على المدى الطويل.
كانت الفكرة هي ملاءمة نموذج لغة صغير لا يتطلب موارد كثيفة نسبيًا، ونأمل أن يحصل على زمن استجابة من ثانية إلى ثانية على تكوين ذاكرة يتراوح من 128 إلى 256 ميجابايت
كنت أرغب أيضًا في استخدام نماذج GGUF لاستخدام مستويات مختلفة من التكميم لمعرفة أفضل أداء/حجم ملف ليتم تحميله في الذاكرة
- قادتني تجربتي إلى استخدام Qwen2 1.5b Q5_K_M لأنه يتمتع بأفضل "أداء" و"زمن انتقال" محليًا لتلقي بنية JSON سريعة وإخراجها باستخدام llama-cpp

المتطلبات الأساسية:

عامل ميناء
أوس سام كلي
AWS CLI
بايثون 3.11
أذونات ECR
أذونات لامدا
قم بتنزيل qwen2-1_5b-instruct-q5_k_m.gguf إلى qwen_fuction/function/
- أو قم بتنزيل أي نماذج .gguf أخرى تريدها وقم بتغيير مسار النموذج الخاص بك في app.y / LOCAL_PATH

دليل الإعداد:

تثبيت حزم النقاط ضمن qwen_function/function/requirements.txt (ويفضل أن يكون ذلك في venv/conda env)
قم بتشغيل sam build / sam validate
قم بتشغيل sam local start-api للاختبار محليًا
قم بتشغيل curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate لمطالبة LLM
- أو استخدم عملاء API المفضلين لديك
قم بتشغيل sam deploy --guided للنشر على AWS
سيؤدي هذا إلى نشر مكدس تشكيل سحابي يتكون من بوابة API ووظيفة Lambda

المقاييس

المضيف المحلي - ماك بوك M3 برو 32 جيجابايت

نص بديل

أوس
- التكوين الأولي - 128 ميجابايت، مهلة 30 ثانية
  - لامدا انتهت مهلة! كانت البداية الباردة هي توقيت انتهاء لامدا
- التكوين المعدل رقم 1 - 512 ميجابايت، مهلة 30 ثانية
  - لامدا انتهت مهلة! كانت البداية الباردة هي توقيت انتهاء لامدا
- التكوين المعدل رقم 2 - 512 ميجابايت، مهلة 30 ثانية
  - لامدا انتهت مهلة! كانت البداية الباردة هي توقيت انتهاء لامدا

نص بديل

التكوين المعدل رقم 3 - 3008 ميجابايت، مهلة 30 ثانية - بداية باردة

نص بديل

التكوين المعدل رقم 3 - 3008 ميجابايت، مهلة 30 ثانية - بداية دافئة

نص بديل

ملاحظة

وبالرجوع إلى هيكل التسعير الخاص بشركة Lambda،
- التسعير
- 1536 ميجابايت / 1.465 ثانية / 0.024638 دولار أمريكي أكثر من 1000 استدعاء لامدا
  - Qwen2 1.5b جعلني أرفع الذاكرة إلى 3008 ميجابايت فقط حتى لا تنتهي المهلة وأتلقى استجابة زمن الوصول من 4 إلى 11 ثانية!
- كلود 3 هايكو / 0.00025 دولار / 0.00125 دولار أكثر من 1000 رمز إدخال و1000 رمز إخراج / آسيا - طوكيو
قد يكون من الأرخص استخدام LLM مستضاف باستخدام AWS Bedrock، وما إلى ذلك. على السحابة نظرًا لأن هيكل التسعير الخاص بـ Lambda w/Qwen لا يبدو أكثر تنافسية مقارنة بـ Claude 3 Haiku
علاوة على ذلك، لا يمكن تكوين مهلة بوابة واجهة برمجة التطبيقات (API) بسهولة بعد انتهاء مهلة الثلاثين ثانية، اعتمادًا على حالة الاستخدام الخاصة بك، وقد لا يكون هذا مثاليًا جدًا
النتائج عبر المحلية تعتمد على مواصفات جهازك!! وقد يشوه تصورك وتوقعاتك بشكل كبير مقابل الواقع
اعتمادًا على حالة الاستخدام الخاصة بك أيضًا، قد يؤدي زمن الاستجابة لكل استدعاء واستجابات لامدا إلى تجارب مستخدم سيئة

خاتمة

بشكل عام، أعتقد أن هذه كانت تجربة صغيرة ممتعة على الرغم من أنها لم تتوافق تمامًا مع متطلبات الميزانية وزمن الوصول عبر Qwen 1.5b لمشروعي الجانبي. شكرًا لـmakit مرة أخرى على الدليل!

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2024-12-29
الحجم 121.15KB
من Github

تطبيقات ذات صلة

Qwen2 VL

2024-11-07
IDLE تشحن القوارب في نسخة محمولة من الزجاجات

2024-02-09
مغامرات سبونج بوب في مربى النسخة الصينية

2023-07-24
الوكيل أ: لغز مقنع

2022-08-28
ابحث عن مخرج في الضياع

2022-08-11
PHP باختصار

2009-05-24

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل