在Kubernetes上進行推斷:LLM,嵌入,語音到文本。
✅️與API兼容性進行OpenAI的置換式替換
⚖️從零的尺度,基於負載的AutoScale
?服務文本生成模型(LLM,VLM等)
對文字API的講話
?嵌入/矢量API
多平台:僅CPU,GPU,TPU
?帶有共享文件系統(EFS,FILESTORE等)的模型緩存
零依賴性(不依賴於iStio,knative等)
聊天UI包括(OpenWebui)
?操作OSS模型服務器(VLLM,Ollama,更快的Whisper,Infinity)
✉通過消息集成(Kafka,PubSub等)通過消息/批處理推理
社區的行情:
可重複使用,抽象的解決方案運行LLM -Mike Ensor
Kubeai提供兼容的HTTP API。管理員可以通過kind: Model
Kubernetes自定義資源。可以將Kubeai視為管理VLLM和Ollama服務器的模型操作員(請參閱操作員模式)。
使用善良或Minikube創建本地群集。
# You might need to stop and remove the existing machine:
podman machine stop
podman machine rm
# Init and start a new machine:
podman machine init --memory 6144 --disk-size 120
podman machine start
kind create cluster # OR: minikube start
添加Kubeai Helm存儲庫。
helm repo add kubeai https://www.kubeai.org
helm repo update
安裝Kubeai並等待所有組件準備就緒(可能需要一分鐘)。
helm install kubeai kubeai/kubeai --wait --timeout 10m
安裝一些預定義的型號。
cat << EOF > kubeai-models.yaml
catalog:
gemma2-2b-cpu:
enabled: true
minReplicas: 1
qwen2-500m-cpu:
enabled: true
nomic-embed-text-cpu:
enabled: true
EOF
helm install kubeai-models kubeai/models
-f ./kubeai-models.yaml
在進行下一步之前,請在獨立終端中的豆莢上啟動手錶,以了解Kubeai如何部署模型。
kubectl get pods --watch
因為我們將minReplicas: 1
對於Gemma模型,您應該看到已經出現的模型POD。
開始捆綁的聊天UI的本地港口。
kubectl port-forward svc/openwebui 8000:80
現在,將瀏覽器打開到Localhost:8000,然後選擇開始與之聊天的Gemma模型。
如果您返回瀏覽器並與QWEN2聊天,您會注意到首先需要一段時間才能做出響應。這是因為我們設置了minReplicas: 0
對於此模型,Kubeai需要旋轉一個新的POD(您可以使用kubectl get models -oyaml qwen2-500m-cpu
進行驗證。
在kubeai.org上查看我們的文檔,以查找有關:
已知採用者清單:
姓名 | 描述 | 關聯 |
---|---|---|
望遠鏡 | 望遠鏡使用kubeai進行多區域大規模批次LLM推理。 | trytelescope.ai |
Google雲分佈式邊緣 | Kubeai作為參考體系結構包括在邊緣推斷。 | LinkedIn,Gitlab |
Lambda | 您可以在Lambda AI開發人員雲上嘗試Kubeai。請參閱Lambda的教程和視頻。 | Lambda |
如果您使用的是kubeai,並且希望被列為採用者,請進行公關。
# Implemented #
/v1/chat/completions
/v1/completions
/v1/embeddings
/v1/models
/v1/audio/transcriptions
# Planned #
# /v1/assistants/*
# /v1/batches/*
# /v1/fine_tuning/*
# /v1/images/*
# /v1/vector_stores/*
注意: Kubeai誕生於一個名為Lingo的項目,該項目是一個簡單的Kubernetes LLM代理,具有基本的自動化。我們以Kubeai(2024年8月下旬)重新推出了該項目,並將路線圖擴大到了今天的路線圖。
?不要忘記在Github上放我們的一顆星星,然後跟隨回購保持最新狀態!
讓我們知道您有興趣查看或伸出疑問的功能。訪問我們的Discord頻道參加討論!
或者,如果您想連接,請在LinkedIn上伸出援手: