llama api server
v0.3.5
このプロジェクトはアクティブな展開中です。壊れた変更はいつでも行うことができます。
サービスとしてのラマ!このプロジェクトは、llama/llama2などのオープンソースバックエンドを使用して、Openai APIに互換性のあるREST-FUL APIサーバーを構築しようとします。
このプロジェクトでは、多くの一般的なGPTツール/フレームワークが独自のモデルと互換性があります。
このコラボートノートブックの指示に従って、オンラインで再生してください。それを構築してくれてありがとう!
llama.cppをQuantized化していない場合は、モデルを準備するために命令に従う必要があります。
Pyllamaを量子化していない場合は、モデルを準備するために指示に従う必要があります。
次のスクリプトを使用して、Pypiからパッケージをダウンロードし、モデルConfig File config.yml
およびセキュリティトークンファイルtokens.txt
を生成します。
pip install llama-api-server
# to run wth pyllama
pip install llama-api-server[pyllama]
cat > config.yml << EOF
models:
completions:
# completions and chat_completions use same model
text-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
text-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
text-davinci-003:
type: pyllama
params:
ckpt_dir: /absolute/path/to/your/7B/
tokenizer_path: /absolute/path/to/your/tokenizer.model
# keep to 1 instance to speed up loading of model
embeddings:
text-embedding-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
min_instance: 1
max_instance: 1
idle_timeout: 3600
text-embedding-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
EOF
echo "SOME_TOKEN" > tokens.txt
# start web server
python -m llama_api_server
# or visible across the network
python -m llama_api_server --host=0.0.0.0
export OPENAI_API_KEY=SOME_TOKEN
export OPENAI_API_BASE=http://127.0.0.1:5000/v1
openai api completions.create -e text-ada-002 -p "hello?"
# or using chat
openai api chat_completions.create -e text-ada-002 -g user "hello?"
# or calling embedding
curl -X POST http://127.0.0.1:5000/v1/embeddings -H 'Content-Type: application/json' -d '{"model":"text-embedding-ada-002", "input":"It is good."}' -H "Authorization: Bearer SOME_TOKEN"
temperature
、 top_p
、およびtop_k
設定しますmax_tokens
を設定しますecho
を設定しますstop
を設定しますstream
を設定しますn
を設定しますpresence_penalty
とfrequency_penalty
を設定しますlogit_bias
を設定しますn_batch
やn_thread
などのパフォーマンスパラメーター