Unduh llama api server - Unduh Kode Sumber llama api server

Indonesia

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Beranda>Terkait pemrograman>Kode sumber lainnya

llama api server

Kode sumber lainnya

v0.3.5

Unduh

?? Llama-API-Server

Proyek ini sedang dalam penyebaran aktif. Breaking Change dapat dilakukan kapan saja.

Llama sebagai layanan! Proyek ini mencoba membangun server API yang penuh dengan OpenAI API menggunakan backend open source seperti LLAMA/LLAMA2.

Dengan proyek ini, banyak alat/kerangka kerja GPT yang umum dapat kompatibel dengan model Anda sendiri.

Mulai

Cobalah online!

Ikuti instruksi dalam notebook collab ini untuk memainkannya secara online. Terima kasih apa pun yang telah membangunnya!

Siapkan model

llama.cpp

Jika Anda tidak memiliki llama.cpp kuantisasi, Anda harus mengikuti instruksi untuk menyiapkan model.

Pyllama

Jika Anda tidak memiliki Pyllama kuantisasi, Anda harus mengikuti instruksi untuk menyiapkan model.

Memasang

Gunakan skrip berikut untuk mengunduh paket dari PYPI dan menghasilkan model konfigurasi config.yml dan token security token tokens.txt .

 pip install llama-api-server

# to run wth pyllama
pip install llama-api-server[pyllama]

cat > config.yml << EOF
models:
  completions:
    # completions and chat_completions use same model
    text-ada-002:
      type: llama_cpp
      params:
        path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
    text-davinci-002:
      type: pyllama_quant
      params:
        path: /absolute/path/to/your/pyllama-7B4b.pt
    text-davinci-003:
      type: pyllama
      params:
        ckpt_dir: /absolute/path/to/your/7B/
        tokenizer_path: /absolute/path/to/your/tokenizer.model
      # keep to 1 instance to speed up loading of model
  embeddings:
    text-embedding-davinci-002:
      type: pyllama_quant
      params:
        path: /absolute/path/to/your/pyllama-7B4b.pt
      min_instance: 1
      max_instance: 1
      idle_timeout: 3600
    text-embedding-ada-002:
      type: llama_cpp
      params:
        path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
EOF

echo "SOME_TOKEN" > tokens.txt

# start web server
python -m llama_api_server
# or visible across the network
python -m llama_api_server --host=0.0.0.0

Hubungi dengan Openai-Python

 export OPENAI_API_KEY=SOME_TOKEN
export OPENAI_API_BASE=http://127.0.0.1:5000/v1

openai api completions.create -e text-ada-002 -p "hello?"
# or using chat
openai api chat_completions.create -e text-ada-002 -g user "hello?"
# or calling embedding
curl -X POST http://127.0.0.1:5000/v1/embeddings -H 'Content-Type: application/json' -d '{"model":"text-embedding-ada-002", "input":"It is good."}'  -H "Authorization: Bearer SOME_TOKEN"