روبوت دردشة مستضاف ذاتيًا، غير متصل بالإنترنت، يشبه ChatGPT، مدعوم من Llama 2. خاص بنسبة 100%، مع عدم مغادرة أي بيانات لجهازك.
جديد: دعم نماذج Code Llama ووحدات معالجة الرسومات Nvidia.
umbrel.com (نحن نوظف) »
حاليًا، يدعم LlamaGPT النماذج التالية. يتوفر الدعم لتشغيل النماذج المخصصة على خريطة الطريق.
اسم النموذج | حجم النموذج | حجم تنزيل النموذج | الذاكرة المطلوبة |
---|---|---|---|
نوس هيرميس لاما 2 7B دردشة (GGML q4_0) | 7 ب | 3.79 جيجابايت | 6.29 جيجابايت |
نوس هيرميس لاما 2 13B دردشة (GGML q4_0) | 13 ب | 7.32 جيجابايت | 9.82 جيجابايت |
نوس هيرميس لاما 2 70B دردشة (GGML q4_0) | 70 ب | 38.87 جيجابايت | 41.37 جيجابايت |
كود لاما 7B للدردشة (GGUF Q4_K_M) | 7 ب | 4.24 جيجابايت | 6.74 جيجابايت |
كود لاما 13B للدردشة (GGUF Q4_K_M) | 13 ب | 8.06 جيجابايت | 10.56 جيجابايت |
Phind Code Llama 34B Chat (GGUF Q4_K_M) | 34 ب | 20.22 جيجابايت | 22.72 جيجابايت |
تشغيل LlamaGPT على خادم umbrelOS الرئيسي هو نقرة واحدة. ما عليك سوى تثبيته من متجر تطبيقات Umbrel.
تأكد من تثبيت Docker وXcode.
ثم انسخ هذا الريبو والقرص cd
فيه:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
قم بتشغيل LlamaGPT بالأمر التالي:
./run-mac.sh --model 7b
يمكنك الوصول إلى LlamaGPT على http://localhost:3000.
لتشغيل نماذج الدردشة 13B أو 70B، استبدل
7b
بـ13b
أو70b
على التوالي. لتشغيل نماذج 7B أو 13B أو 34B Code Llama، استبدل7b
بـcode-7b
أوcode-13b
أوcode-34b
على التوالي.
لإيقاف LlamaGPT، استخدم Ctrl + C
في Terminal.
يمكنك تشغيل LlamaGPT على أي نظام x86 أو Arm64. تأكد من تثبيت Docker.
ثم انسخ هذا الريبو والقرص cd
فيه:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
قم بتشغيل LlamaGPT بالأمر التالي:
./run.sh --model 7b
أو إذا كان لديك وحدة معالجة رسومات Nvidia، فيمكنك تشغيل LlamaGPT بدعم CUDA باستخدام علامة --with-cuda
، مثل:
./run.sh --model 7b --with-cuda
يمكنك الوصول إلى LlamaGPT على http://localhost:3000
.
لتشغيل نماذج الدردشة 13B أو 70B، استبدل
7b
بـ13b
أو70b
على التوالي. لتشغيل نماذج Code Llama 7B أو 13B أو 34B، استبدل7b
بـcode-7b
أوcode-13b
أوcode-34b
على التوالي.
لإيقاف LlamaGPT، استخدم Ctrl + C
في Terminal.
ملاحظة: في التشغيل الأول، قد يستغرق الأمر بعض الوقت حتى يتم تنزيل النموذج إلى الدليل
/models
. قد ترى أيضًا الكثير من المخرجات مثل هذا لبضع دقائق، وهو أمر طبيعي:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
بعد أن يتم تنزيل النموذج وتحميله تلقائيًا، وتشغيل خادم API، سترى مخرجات مثل:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
يمكنك بعد ذلك الوصول إلى LlamaGPT على http://localhost:3000.
أولاً، تأكد من أن لديك مجموعة Kubernetes قيد التشغيل ومن تكوين kubectl
للتفاعل معها.
ثم، استنساخ هذا الريبو cd
فيه.
للنشر في Kubernetes، قم أولاً بإنشاء مساحة اسم:
kubectl create ns llama
ثم قم بتطبيق البيانات ضمن الدليل /deploy/kubernetes
باستخدام
kubectl apply -k deploy/kubernetes/. -n llama
اكشف عن خدمتك ولكنك تفعل ذلك عادةً.
بفضل llama-cpp-python، يتوفر بديل مباشر لـ OpenAI API على http://localhost:3001
. افتح http://localhost:3001/docs للاطلاع على وثائق واجهة برمجة التطبيقات.
لقد اختبرنا نماذج LlamaGPT على الأجهزة التالية باستخدام موجه النظام الافتراضي وموجه المستخدم: "كيف يتوسع الكون؟" عند درجة حرارة 0 لضمان نتائج حتمية. يتم حساب متوسط سرعة التوليد خلال الأجيال العشرة الأولى.
لا تتردد في إضافة المعايير الخاصة بك إلى هذا الجدول عن طريق فتح طلب سحب.
جهاز | سرعة التوليد |
---|---|
ام 1 ماكس ماك بوك برو (ذاكرة الوصول العشوائي 64 جيجابايت) | 54 رمزًا/ثانية |
GCP c2-standard-16 vCPU (ذاكرة وصول عشوائي سعة 64 جيجابايت) | 16.7 رمزًا/ثانية |
رايزن 5700 جي 4.4 جيجاهيرتز 4 سي (16 جيجابايت رام) | 11.50 قطعة/ثانية |
GCP c2-standard-4 vCPU (ذاكرة وصول عشوائي سعة 16 جيجابايت) | 4.3 الرموز / ثانية |
أمبريل هوم (16 جيجابايت رام) | 2.7 الرموز / ثانية |
راسبيري باي 4 (ذاكرة الوصول العشوائي 8 جيجابايت) | 0.9 الرموز / ثانية |
جهاز | سرعة التوليد |
---|---|
ام 1 ماكس ماك بوك برو (ذاكرة الوصول العشوائي 64 جيجابايت) | 20 رمزًا/ثانية |
GCP c2-standard-16 vCPU (ذاكرة وصول عشوائي سعة 64 جيجابايت) | 8.6 الرموز / ثانية |
GCP c2-standard-4 vCPU (ذاكرة وصول عشوائي سعة 16 جيجابايت) | 2.2 الرموز / ثانية |
أمبريل هوم (16 جيجابايت رام) | 1.5 رمز/ثانية |
جهاز | سرعة التوليد |
---|---|
ام 1 ماكس ماك بوك برو (ذاكرة الوصول العشوائي 64 جيجابايت) | 4.8 الرموز / ثانية |
GCP e2-standard-16 vCPU (ذاكرة وصول عشوائي سعة 64 جيجابايت) | 1.75 رمزًا/ثانية |
GCP c2-standard-16 vCPU (ذاكرة وصول عشوائي سعة 64 جيجابايت) | 1.62 رمز/ثانية |
جهاز | سرعة التوليد |
---|---|
ام 1 ماكس ماك بوك برو (ذاكرة الوصول العشوائي 64 جيجابايت) | 41 رمزًا/ثانية |
جهاز | سرعة التوليد |
---|---|
ام 1 ماكس ماك بوك برو (ذاكرة الوصول العشوائي 64 جيجابايت) | 25 رمزًا/ثانية |
جهاز | سرعة التوليد |
---|---|
ام 1 ماكس ماك بوك برو (ذاكرة الوصول العشوائي 64 جيجابايت) | 10.26 رمزًا/ثانية |
نحن نتطلع إلى إضافة المزيد من الميزات إلى LlamaGPT. يمكنك رؤية خريطة الطريق هنا. الأولويات القصوى هي:
إذا كنت مطورًا وترغب في المساعدة في أي من هذه الأمور، فيرجى فتح مشكلة لمناقشة أفضل طريقة لمواجهة التحدي. إذا كنت تتطلع إلى المساعدة ولكنك غير متأكد من أين تبدأ، فاطلع على هذه المشكلات التي تم تحديدها على أنها صديقة للمساهمين الجدد.
شكرًا جزيلاً للمطورين والفرق التالية أسماؤهم لجعل LlamaGPT ممكنًا:
umbrel.com