ดาวน์โหลด kubeai - ดาวน์โหลดซอร์สโค้ด kubeai

kubeai

ซอร์สโค้ดอื่น ๆ

helm-chart-models-0.9.0

ดาวน์โหลด

Kubeai: ผู้ดำเนินการอนุมาน AI

รับการอนุมานการทำงานบน Kubernetes: LLMS, EMBEDDINGS, คำพูดเป็นข้อความ

✅การแทนที่แบบดรอปอินสำหรับ OpenAI ด้วยความเข้ากันได้ของ API
⚖สเกลจากศูนย์อัตโนมัติตามโหลด
- ให้บริการรุ่นการสร้างข้อความ (LLMS, VLMS ฯลฯ )
คำพูดถึงข้อความ API
- การฝัง/เวกเตอร์ API
Multi-Platform: CPU-only, GPU, TPU
- การแคชแบบจำลองด้วยระบบไฟล์ที่ใช้ร่วมกัน (EFS, Filestore ฯลฯ )
การพึ่งพาศูนย์ (ไม่ได้ขึ้นอยู่กับ istio, Knative, ฯลฯ )
ui แชทรวม (openwebui)
- ใช้งานเซิร์ฟเวอร์ OSS Model (VLLM, Ollama, Fasterwhisper, Infinity)
✉การอนุมานสตรีม/แบทช์ผ่านการรวมการส่งข้อความ (Kafka, Pubsub ฯลฯ )

คำคมจากชุมชน:

โซลูชันที่ใช้ซ้ำได้และเป็นนามธรรมในการเรียกใช้ LLM - Mike Ensor

สถาปัตยกรรม

Kubeai ให้บริการ HTTP API ที่เข้ากันได้ของ OpenAI ผู้ดูแลระบบสามารถกำหนดค่าโมเดล ML ผ่าน kind: Model Kubernetes ทรัพยากรที่กำหนดเอง Kubeai สามารถคิดว่าเป็นตัวดำเนินการจำลอง (ดูรูปแบบของผู้ปฏิบัติงาน) ที่จัดการเซิร์ฟเวอร์ VLLM และ Ollama

Quickstart ท้องถิ่น

kubeai-quickstart-demo.mp4

สร้างคลัสเตอร์ท้องถิ่นโดยใช้ชนิดหรือ minikube

เคล็ดลับ: ถ้าคุณใช้ Podman เป็นประเภท ...

ตรวจสอบให้แน่ใจว่าเครื่อง Podman ของคุณสามารถใช้หน่วยความจำได้สูงสุด 6 กรัม (โดยค่าเริ่มต้นจะถูกต่อยอดที่ 2G):

 # You might need to stop and remove the existing machine:
podman machine stop
podman machine rm

# Init and start a new machine:
podman machine init --memory 6144 --disk-size 120
podman machine start

kind create cluster # OR: minikube start

เพิ่มพื้นที่เก็บข้อมูล Kubeai Helm

helm repo add kubeai https://www.kubeai.org
helm repo update

ติดตั้ง Kubeai และรอให้ส่วนประกอบทั้งหมดพร้อม (อาจใช้เวลาสักครู่)

helm install kubeai kubeai/kubeai --wait --timeout 10m

ติดตั้งรุ่นที่กำหนดไว้ล่วงหน้า

cat << EOF > kubeai-models.yaml
catalog:
  gemma2-2b-cpu:
    enabled: true
    minReplicas: 1
  qwen2-500m-cpu:
    enabled: true
  nomic-embed-text-cpu:
    enabled: true
EOF

helm install kubeai-models kubeai/models 
    -f ./kubeai-models.yaml

ก่อนที่จะก้าวไปสู่ขั้นตอนถัดไปให้เริ่มดูพ็อดในเทอร์มินัลแบบสแตนด์อโลนเพื่อดูว่า Kubeai ปรับใช้โมเดลอย่างไร

kubectl get pods --watch

โต้ตอบกับ gemma2

เพราะเราตั้งค่า minReplicas: 1 สำหรับรุ่น Gemma คุณควรเห็นพ็อดโมเดลมาแล้ว

เริ่มต้นพอร์ตในท้องถิ่นไปยัง UI แชทแบบรวม

kubectl port-forward svc/openwebui 8000:80

ตอนนี้เปิดเบราว์เซอร์ของคุณไปที่ LocalHost: 8000 และเลือกรุ่น Gemma เพื่อเริ่มการแชทด้วย

ขยาย Qwen2 จากศูนย์

หากคุณกลับไปที่เบราว์เซอร์และเริ่มแชทกับ Qwen2 คุณจะสังเกตเห็นว่าจะต้องใช้เวลาสักครู่ในการตอบกลับในตอนแรก นี่เป็นเพราะเราตั้งค่า minReplicas: 0 สำหรับรุ่นนี้และ Kubeai จำเป็นต้องหมุนพ็อดใหม่ (คุณสามารถตรวจสอบได้ด้วย kubectl get models -oyaml qwen2-500m-cpu )

เอกสาร

ชำระเงินเอกสารของเราเกี่ยวกับ kubeai.org เพื่อค้นหาข้อมูลเกี่ยวกับ:

การติดตั้ง kubeai ในคลาวด์
วิธีการแนะนำ (เช่นวิธีจัดการโมเดลและโปรไฟล์ทรัพยากร)
แนวคิด (วิธีการทำงานของ Kubeai)
วิธีการมีส่วนร่วม

ผู้ใช้

รายชื่อผู้ใช้ที่รู้จัก:

ชื่อ	คำอธิบาย	การเชื่อมโยง
กล้องโทรทรรศน์	กล้องโทรทรรศน์ใช้ kubeai สำหรับการอนุมาน LLM แบบหลายภูมิภาคขนาดใหญ่	trytelescope.ai
Google Cloud Distributed Edge	Kubeai รวมอยู่ในสถาปัตยกรรมอ้างอิงสำหรับการอนุมานที่ขอบ	LinkedIn, Gitlab
แลมบ์ดา	คุณสามารถลอง Kubeai บนคลาวด์นักพัฒนา Lambda AI ดูการสอนและวิดีโอของแลมบ์ดา	แลมบ์ดา

หากคุณใช้ Kubeai และต้องการที่จะอยู่ในรายการเป็นผู้ใช้โปรดทำ PR

ความเข้ากันได้ของ Openai API

 # Implemented #
/v1/chat/completions
/v1/completions
/v1/embeddings
/v1/models
/v1/audio/transcriptions

# Planned #
# /v1/assistants/*
# /v1/batches/*
# /v1/fine_tuning/*
# /v1/images/*
# /v1/vector_stores/*

แผนงานทันที

การแคชแบบจำลอง
Lora Finetuning (เข้ากันได้กับ Openai Finetuning API)
การสร้างภาพ (เข้ากันได้กับ OpenAI Images API)

หมายเหตุ: Kubeai เกิดจากโครงการที่เรียกว่า Lingo ซึ่งเป็นพร็อกซี Kubernetes LLM ที่เรียบง่ายพร้อมการปรับสภาพอัตโนมัติ เราเปิดตัวโครงการใหม่เป็น Kubeai (ปลายเดือนสิงหาคม 2567) และขยายแผนงานไปสู่สิ่งที่เป็นอยู่ในปัจจุบัน

- อย่าลืมที่จะวางดาวให้เราบน GitHub และติดตาม repo เพื่อติดตามข่าวสารล่าสุด!