kubeai下载kubeai源代码下载

kubeai

其他源码

helm-chart-models-0.9.0

下载

Kubeai：AI推理操作员

在Kubernetes上进行推断：LLM，嵌入，语音到文本。

✅️与API兼容性进行OpenAI的置换式替换
⚖️从零的尺度，基于负载的AutoScale
？服务文本生成模型（LLM，VLM等）
对文字API的讲话
？嵌入/矢量API
多平台：仅CPU，GPU，TPU
？带有共享文件系统（EFS，FILESTORE等）的模型缓存
零依赖性（不依赖于iStio，knative等）
聊天UI包括（OpenWebui）
？操作OSS模型服务器（VLLM，Ollama，更快的Whisper，Infinity）
✉通过消息集成（Kafka，PubSub等）通过消息/批处理推理

社区的行情：

可重复使用，抽象的解决方案运行LLM -Mike Ensor

建筑学

Kubeai提供兼容的HTTP API。管理员可以通过kind: Model Kubernetes自定义资源。可以将Kubeai视为管理VLLM和Ollama服务器的模型操作员（请参阅操作员模式）。

本地Quickstart

kubeai-quickstart-demo.mp4

使用善良或Minikube创建本地群集。

提示：如果您正在使用Podman进行友善...

确保您的Podman机器最多可以使用6克内存（默认情况下，它封顶为2G）：

 # You might need to stop and remove the existing machine:
podman machine stop
podman machine rm

# Init and start a new machine:
podman machine init --memory 6144 --disk-size 120
podman machine start

kind create cluster # OR: minikube start

添加Kubeai Helm存储库。

helm repo add kubeai https://www.kubeai.org
helm repo update

安装Kubeai并等待所有组件准备就绪（可能需要一分钟）。

helm install kubeai kubeai/kubeai --wait --timeout 10m

安装一些预定义的型号。

cat << EOF > kubeai-models.yaml
catalog:
  gemma2-2b-cpu:
    enabled: true
    minReplicas: 1
  qwen2-500m-cpu:
    enabled: true
  nomic-embed-text-cpu:
    enabled: true
EOF

helm install kubeai-models kubeai/models 
    -f ./kubeai-models.yaml

在进行下一步之前，请在独立终端中的豆荚上启动手表，以了解Kubeai如何部署模型。

kubectl get pods --watch

与gemma2相互作用

因为我们将minReplicas: 1对于Gemma模型，您应该看到已经出现的模型POD。

开始捆绑的聊天UI的本地港口。

kubectl port-forward svc/openwebui 8000:80

现在，将浏览器打开到Localhost：8000，然后选择开始与之聊天的Gemma模型。

从零扩展QWEN2

如果您返回浏览器并与QWEN2聊天，您会注意到首先需要一段时间才能做出响应。这是因为我们设置了minReplicas: 0对于此模型，Kubeai需要旋转一个新的POD（您可以使用kubectl get models -oyaml qwen2-500m-cpu进行验证。

文档

在kubeai.org上查看我们的文档，以查找有关：

在云中安装kubeai
如何指导（例如如何管理模型和资源配置文件）。
概念（Kubeai的组成部分如何起作用）。
如何贡献

采用者

已知采用者清单：

姓名	描述	关联
望远镜	望远镜使用kubeai进行多区域大规模批处理LLM推理。	trytelescope.ai
Google云分布式边缘	Kubeai作为参考体系结构包括在边缘推断。	LinkedIn，Gitlab
Lambda	您可以在Lambda AI开发人员云上尝试Kubeai。请参阅Lambda的教程和视频。	Lambda

如果您使用的是kubeai，并且希望被列为采用者，请进行公关。

OpenAI API兼容性

 # Implemented #
/v1/chat/completions
/v1/completions
/v1/embeddings
/v1/models
/v1/audio/transcriptions

# Planned #
# /v1/assistants/*
# /v1/batches/*
# /v1/fine_tuning/*
# /v1/images/*
# /v1/vector_stores/*