Aikit هي منصة شاملة للبدء بسرعة في استضافة نماذج اللغة الكبيرة ونشرها وإنشائها وضبطها (LLMS).
يقدم Aikit قدرات رئيسية:
الاستدلال : يستخدم Aikit Localai ، الذي يدعم مجموعة واسعة من قدرات الاستدلال والتنسيقات. يوفر Localai واجهة برمجة تطبيقات للاستبدال المتوافقة مع API Openai ، بحيث يمكنك استخدام أي عميل متوافق مع API Openai ، مثل Kubectl AI و chatbot-ui وغيرها الكثير ، لإرسال طلبات لفتح LLMS!
النقل الدقيق : يقدم Aikit واجهة صقل قابلة للتمديد. وهو يدعم Unloth لتجربة سريعة وفعالة للذاكرة وسهلة الضبط.
للحصول على الوثائق الكاملة ، يرجى الاطلاع على موقع Aikit!
llama
) و GPTQ أو EXL2 ( exllama2
) و GGML ( llama-ggml
) و Mamba Modelsيمكنك البدء مع Aikit بسرعة على جهازك المحلي بدون وحدة معالجة الرسومات!
docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b
بعد تشغيل هذا ، انتقل إلى http: // localhost: 8080/chat للوصول إلى webui!
يوفر Aikit نقطة نهاية متوافقة مع API Openai ، بحيث يمكنك استخدام أي عميل متوافق مع API Openai لإرسال طلبات لفتح LLMS!
curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
"model": "llama-3.1-8b-instruct",
"messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
} '
يجب أن يكون الإخراج مشابهًا لـ:
{
// ...
"model" : "llama-3.1-8b-instruct" ,
"choices" : [
{
"index" : 0 ,
"finish_reason" : "stop" ,
"message" : {
"role" : "assistant" ,
"content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
}
}
] ,
// ...
}
هذا كل شيء! ؟ API متوافق مع Openai ، لذا يعد هذا بديلًا للمنزل لأي عميل متوافق مع API Openai.
يأتي Aikit مع نماذج مسبقة الصنع يمكنك استخدامها خارج الصندوق!
إذا لم يتضمن نموذجًا معينًا ، فيمكنك دائمًا إنشاء صورك الخاصة ، واستضافة سجل حاويات من اختيارك!
ملحوظة
AIKIT يدعم كلا من وحدات المعالجة المركزية AMD64 و ARM64. يمكنك تشغيل نفس الأمر على أي من الهندسة المعمارية ، وسيقوم Docker تلقائيًا بسحب الصورة الصحيحة لوحدة المعالجة المركزية الخاصة بك.
اعتمادًا على إمكانيات وحدة المعالجة المركزية ، ستقوم AIKIT تلقائيًا بتحديد مجموعة التعليمات الأكثر تحسينًا.
نموذج | تحسين | حدود | يأمر | اسم النموذج | رخصة |
---|---|---|---|---|---|
؟ لاما 3.2 | إرشاد | 1 ب | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | لاما |
؟ لاما 3.2 | إرشاد | 3 ب | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | لاما |
؟ لاما 3.1 | إرشاد | 8 ب | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | لاما |
؟ لاما 3.1 | إرشاد | 70 ب | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | لاما |
إرشاد | 8x7b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | أباتشي | |
إرشاد | 3.8 ب | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | معهد ماساتشوستس للتكنولوجيا | |
؟ جيما 2 | إرشاد | 2 ب | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | جيما |
⌨ CodeStral 0.1 | شفرة | 22 ب | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | mnlp |
ملحوظة
لتمكين تسارع وحدة معالجة الرسومات ، يرجى الاطلاع على تسريع GPU.
يرجى ملاحظة أن الفرق فقط بين وحدة المعالجة المركزية وقسم GPU هو --gpus all
العلم في الأمر لتمكين تسارع وحدة معالجة الرسومات.
نموذج | تحسين | حدود | يأمر | اسم النموذج | رخصة |
---|---|---|---|---|---|
؟ لاما 3.2 | إرشاد | 1 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | لاما |
؟ لاما 3.2 | إرشاد | 3 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | لاما |
؟ لاما 3.1 | إرشاد | 8 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | لاما |
؟ لاما 3.1 | إرشاد | 70 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | لاما |
إرشاد | 8x7b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | أباتشي | |
إرشاد | 3.8 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | معهد ماساتشوستس للتكنولوجيا | |
؟ جيما 2 | إرشاد | 2 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | جيما |
⌨ CodeStral 0.1 | شفرة | 22 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | mnlp |
؟ تدفق 1 ديف | نص على الصورة | 12 ب | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev | flux-1-dev | Flux.1 [dev] ترخيص غير تجاري |
ملحوظة
لتمكين تسارع GPU على Apple Silicon ، يرجى الاطلاع على وثائق سطح المكتب Podman. لمزيد من المعلومات ، يرجى الاطلاع على تسريع GPU.
Apple Silicon هو وقت تشغيل تجريبي وقد يتغير في المستقبل. وقت التشغيل هذا خاص بـ Apple Silicon فقط ، ولن يعمل كما هو متوقع في البنى الأخرى ، بما في ذلك Intel Macs.
يتم دعم نماذج gguf
فقط على سيليكون Apple.
نموذج | تحسين | حدود | يأمر | اسم النموذج | رخصة |
---|---|---|---|---|---|
؟ لاما 3.2 | إرشاد | 1 ب | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b | llama-3.2-1b-instruct | لاما |
؟ لاما 3.2 | إرشاد | 3 ب | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b | llama-3.2-3b-instruct | لاما |
؟ لاما 3.1 | إرشاد | 8 ب | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b | llama-3.1-8b-instruct | لاما |
إرشاد | 3.8 ب | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b | phi-3.5-3.8b-instruct | معهد ماساتشوستس للتكنولوجيا | |
؟ جيما 2 | إرشاد | 2 ب | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b | gemma-2-2b-instruct | جيما |
لمزيد من المعلومات وكيفية ضبط النماذج أو إنشاء صورك الخاصة ، يرجى الاطلاع على موقع Aikit!