llama api server
v0.3.5
هذا المشروع تحت النشر النشط. يمكن إجراء تغييرات في أي وقت.
لاما كخدمة! يحاول هذا المشروع إنشاء خادم واجهة برمجة تطبيقات مريحة متوافقة مع API Openai باستخدام الخلفية المفتوحة المصدر مثل Llama/LLAMA2.
مع هذا المشروع ، يمكن أن تتوافق العديد من أدوات/إطار عمل GPT الشائع مع النموذج الخاص بك.
اتبع التعليمات في دفتر الملاحظات هذا لتشغيله عبر الإنترنت. شكرا اي شيء butme لبناءها!
إذا لم يكن لديك llama.cpp كمي ، فأنت بحاجة إلى اتباع التعليمات لإعداد النموذج.
إذا لم يكن لديك كمية كمية Pyllama ، فأنت بحاجة إلى اتباع التعليمات لإعداد النموذج.
استخدم البرنامج النصي التالي لتنزيل الحزمة من PYPI وإنشاء ملف config config.yml
و Security Token File tokens.txt
.
pip install llama-api-server
# to run wth pyllama
pip install llama-api-server[pyllama]
cat > config.yml << EOF
models:
completions:
# completions and chat_completions use same model
text-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
text-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
text-davinci-003:
type: pyllama
params:
ckpt_dir: /absolute/path/to/your/7B/
tokenizer_path: /absolute/path/to/your/tokenizer.model
# keep to 1 instance to speed up loading of model
embeddings:
text-embedding-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
min_instance: 1
max_instance: 1
idle_timeout: 3600
text-embedding-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
EOF
echo "SOME_TOKEN" > tokens.txt
# start web server
python -m llama_api_server
# or visible across the network
python -m llama_api_server --host=0.0.0.0
export OPENAI_API_KEY=SOME_TOKEN
export OPENAI_API_BASE=http://127.0.0.1:5000/v1
openai api completions.create -e text-ada-002 -p "hello?"
# or using chat
openai api chat_completions.create -e text-ada-002 -g user "hello?"
# or calling embedding
curl -X POST http://127.0.0.1:5000/v1/embeddings -H 'Content-Type: application/json' -d '{"model":"text-embedding-ada-002", "input":"It is good."}' -H "Authorization: Bearer SOME_TOKEN"
temperature
، top_p
، و top_k
max_tokens
echo
stop
stream
n
presence_penalty
و frequency_penalty
logit_bias
n_batch
و n_thread