kubeai 다운로드 kubeai 소스 코드 다운로드

kubeai

기타 소스코드

helm-chart-models-0.9.0

다운로드

Kubeai : AI 추론 연산자

Kubernetes : LLMS, Embedding, Speech-to-Text에서 추론을 받으십시오.

API 호환성과 OpenAI의 드롭 인 교체
부하를 기반으로 autoscale, autoscale에서 ⚖️ 스케일
? 텍스트 생성 모델 제공 (LLM, VLM 등)
텍스트 API에 대한 연설
? 임베딩/벡터 API
멀티 플랫폼 : CPU 전용, GPU, TPU
? 공유 파일 시스템 (EFS, Filestore 등)을 사용한 모델 캐싱
제로 의존성 (Istio, Knative 등에 의존하지 않음)
채팅 UI 포함 (OpenWebui)
? OSS 모델 서버 (Vllm, Ollama, Fasterwhisper, Infinity) 작동
✉ 메시징 통합을 통한 스트림/배치 추론 (Kafka, Pubsub 등)

커뮤니티의 인용문 :

LLMS를 운영하기위한 재사용 가능한, 잘 추상화 된 솔루션 -Mike Ensor

건축학

Kubeai는 OpenAI 호환 HTTP API를 제공합니다. Admins는 kind: Model Kubernetes 사용자 정의 리소스를 통해 ML 모델을 구성 할 수 있습니다. Kubeai는 Vllm 및 Ollama 서버를 관리하는 모델 연산자 (운영자 패턴 참조)로 생각할 수 있습니다.

로컬 QuickStart

Kubeai-Quickstart-demo.mp4

Kind 또는 Minikube를 사용하여 로컬 클러스터를 만듭니다.

팁 : Podman을 Kind에 사용하고 있다면 ...

Podman 머신은 최대 6g의 메모리를 사용할 수 있는지 확인하십시오 (기본적으로 2G로 캡핑 됨).

 # You might need to stop and remove the existing machine:
podman machine stop
podman machine rm

# Init and start a new machine:
podman machine init --memory 6144 --disk-size 120
podman machine start

kind create cluster # OR: minikube start

Kubeai Helm 저장소를 추가하십시오.

helm repo add kubeai https://www.kubeai.org
helm repo update

Kubeai를 설치하고 모든 구성 요소가 준비 될 때까지 기다리십시오 (1 분이 걸릴 수 있음).

helm install kubeai kubeai/kubeai --wait --timeout 10m

사전 정의 된 일부 모델을 설치하십시오.

cat << EOF > kubeai-models.yaml
catalog:
  gemma2-2b-cpu:
    enabled: true
    minReplicas: 1
  qwen2-500m-cpu:
    enabled: true
  nomic-embed-text-cpu:
    enabled: true
EOF

helm install kubeai-models kubeai/models 
    -f ./kubeai-models.yaml

다음 단계로 진행하기 전에 독립형 터미널의 포드에서 시계를 시작하여 Kubeai가 모델을 배포하는 방법을 확인하십시오.

kubectl get pods --watch

Gemma2와 상호 작용합니다

minReplicas: 1 Gemma 모델의 경우 1을 설정하기 때문에 이미 모델 포드가 나타나야합니다.

번들 채팅 UI 로의 로컬 포트 포워드를 시작하십시오.

kubectl port-forward svc/openwebui 8000:80

이제 Browser를 LocalHost : 8000으로 열고 채팅을 시작할 젬마 모델을 선택하십시오.

0에서 QWEN2를 확장하십시오

브라우저로 돌아가 QWEN2와 채팅을 시작하면 처음에는 응답하는 데 시간이 걸릴 것입니다. 이 모델의 경우 minReplicas: 0 설정하고 Kubeai는 새로운 포드를 회전시켜야하기 때문입니다 ( kubectl get models -oyaml qwen2-500m-cpu 로 확인할 수 있음).

선적 서류 비치

kubeai.org에서 문서를 확인하여 다음에 대한 정보를 찾으십시오.

클라우드에 Kubeai 설치
안내 방법 (예 : 모델 및 리소스 프로파일을 관리하는 방법).
개념 (Kubeai의 구성 요소가 작동하는 방법).
기여하는 방법

채택 자

알려진 채택 자 목록 :

이름	설명	링크
망원경	망원경은 다중 지역 대규모 배치 LLM 추론에 kubeai를 사용합니다.	trytelescope.ai
Google Cloud Distributed Edge	Kubeai는 가장자리에서 추론을위한 기준 아키텍처로 포함됩니다.	LinkedIn, Gitlab
람다	Lambda AI 개발자 클라우드에서 Kubeai를 사용해 볼 수 있습니다. Lambda의 튜토리얼 및 비디오를 참조하십시오.	람다

Kubeai를 사용하고 있고 채택 자로 상장 되려면 PR을 만드십시오.

OpenAI API 호환성

 # Implemented #
/v1/chat/completions
/v1/completions
/v1/embeddings
/v1/models
/v1/audio/transcriptions

# Planned #
# /v1/assistants/*
# /v1/batches/*
# /v1/fine_tuning/*
# /v1/images/*
# /v1/vector_stores/*