ดาวน์โหลด llama api server - ดาวน์โหลดซอร์สโค้ด llama api server

ภาษาไทย

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

หน้าแรก>การเขียนโปรแกรมที่เกี่ยวข้อง>ซอร์สโค้ดอื่น ๆ

llama api server

ซอร์สโค้ดอื่น ๆ

v0.3.5

ดาวน์โหลด

- Llama-Api-Server

โครงการนี้อยู่ภายใต้การปรับใช้ที่ใช้งานอยู่ การเปลี่ยนแปลงที่แตกอาจเกิดขึ้นได้ตลอดเวลา

Llama เป็นบริการ! โครงการนี้พยายามที่จะสร้างเซิร์ฟเวอร์ API แบบพักผ่อนที่เข้ากันได้กับ OpenAI API โดยใช้แบ็กเอนด์โอเพ่นซอร์สเช่น LLAMA/LLAMA2

ด้วยโครงการนี้เครื่องมือ/เฟรมเวิร์ก GPT ทั่วไปจำนวนมากสามารถเข้ากันได้กับโมเดลของคุณเอง

เริ่มต้นใช้งาน

ลองออนไลน์!

ทำตามคำแนะนำในสมุดบันทึกการทำงานร่วมกันนี้เพื่อเล่นออนไลน์ ขอบคุณทุกสิ่งที่สร้างมันขึ้นมา!

เตรียมรุ่น

llama.cpp

หากคุณไม่มี quantized llama.cpp คุณต้องทำตามคำแนะนำเพื่อเตรียมโมเดล

Pyllama

หากคุณไม่มี Quantize Pyllama คุณต้องทำตามคำแนะนำเพื่อเตรียมโมเดล

ติดตั้ง

ใช้สคริปต์ต่อไปนี้เพื่อดาวน์โหลดแพ็คเกจจาก PYPI และสร้างไฟล์ config.yml และความปลอดภัยไฟล์โทเค็นโทเค็น tokens.txt

 pip install llama-api-server

# to run wth pyllama
pip install llama-api-server[pyllama]

cat > config.yml << EOF
models:
  completions:
    # completions and chat_completions use same model
    text-ada-002:
      type: llama_cpp
      params:
        path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
    text-davinci-002:
      type: pyllama_quant
      params:
        path: /absolute/path/to/your/pyllama-7B4b.pt
    text-davinci-003:
      type: pyllama
      params:
        ckpt_dir: /absolute/path/to/your/7B/
        tokenizer_path: /absolute/path/to/your/tokenizer.model
      # keep to 1 instance to speed up loading of model
  embeddings:
    text-embedding-davinci-002:
      type: pyllama_quant
      params:
        path: /absolute/path/to/your/pyllama-7B4b.pt
      min_instance: 1
      max_instance: 1
      idle_timeout: 3600
    text-embedding-ada-002:
      type: llama_cpp
      params:
        path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
EOF

echo "SOME_TOKEN" > tokens.txt

# start web server
python -m llama_api_server
# or visible across the network
python -m llama_api_server --host=0.0.0.0

โทรด้วย openai-python

 export OPENAI_API_KEY=SOME_TOKEN
export OPENAI_API_BASE=http://127.0.0.1:5000/v1

openai api completions.create -e text-ada-002 -p "hello?"
# or using chat
openai api chat_completions.create -e text-ada-002 -g user "hello?"
# or calling embedding
curl -X POST http://127.0.0.1:5000/v1/embeddings -H 'Content-Type: application/json' -d '{"model":"text-embedding-ada-002", "input":"It is good."}'  -H "Authorization: Bearer SOME_TOKEN"