이 저장소에는 Google Kubernetes Engine(GKE)의 AI/ML 워크로드와 관련된 자산이 포함되어 있습니다.
Google Kubernetes Engine(GKE) 플랫폼 조정 기능으로 최적화된 AI/ML 워크로드를 실행하세요. 강력한 AI/ML 플랫폼은 다음 레이어를 고려합니다.
AI-on-GKE 애플리케이션 모듈에서는 작동하는 GKE 클러스터가 이미 있다고 가정합니다. 그렇지 않은 경우 인프라/README.md 아래의 지침에 따라 표준 또는 Autopilot GKE 클러스터를 설치하세요.
.
├── LICENSE
├── README.md
├── infrastructure
│ ├── README.md
│ ├── backend.tf
│ ├── main.tf
│ ├── outputs.tf
│ ├── platform.tfvars
│ ├── variables.tf
│ └── versions.tf
├── modules
│ ├── gke-autopilot-private-cluster
│ ├── gke-autopilot-public-cluster
│ ├── gke-standard-private-cluster
│ ├── gke-standard-public-cluster
│ ├── jupyter
│ ├── jupyter_iap
│ ├── jupyter_service_accounts
│ ├── kuberay-cluster
│ ├── kuberay-logging
│ ├── kuberay-monitoring
│ ├── kuberay-operator
│ └── kuberay-serviceaccounts
└── tutorial.md
새 GKE 클러스터를 배포하려면 platform.tfvars
파일을 적절한 값으로 업데이트한 후 아래 terraform 명령어를 실행하세요.
terraform init
terraform apply -var-file platform.tfvars
저장소 구조는 다음과 같습니다.
.
├── LICENSE
├── Makefile
├── README.md
├── applications
│ ├── jupyter
│ └── ray
├── contributing.md
├── dcgm-on-gke
│ ├── grafana
│ └── quickstart
├── gke-a100-jax
│ ├── Dockerfile
│ ├── README.md
│ ├── build_push_container.sh
│ ├── kubernetes
│ └── train.py
├── gke-batch-refarch
│ ├── 01_gke
│ ├── 02_platform
│ ├── 03_low_priority
│ ├── 04_high_priority
│ ├── 05_compact_placement
│ ├── 06_jobset
│ ├── Dockerfile
│ ├── README.md
│ ├── cloudbuild-create.yaml
│ ├── cloudbuild-destroy.yaml
│ ├── create-platform.sh
│ ├── destroy-platform.sh
│ └── images
├── gke-disk-image-builder
│ ├── README.md
│ ├── cli
│ ├── go.mod
│ ├── go.sum
│ ├── imager.go
│ └── script
├── gke-dws-examples
│ ├── README.md
│ ├── dws-queues.yaml
│ ├── job.yaml
│ └── kueue-manifests.yaml
├── gke-online-serving-single-gpu
│ ├── README.md
│ └── src
├── gke-tpu-examples
│ ├── single-host-inference
│ └── training
├── indexed-job
│ ├── Dockerfile
│ ├── README.md
│ └── mnist.py
├── jobset
│ └── pytorch
├── modules
│ ├── gke-autopilot-private-cluster
│ ├── gke-autopilot-public-cluster
│ ├── gke-standard-private-cluster
│ ├── gke-standard-public-cluster
│ ├── jupyter
│ ├── jupyter_iap
│ ├── jupyter_service_accounts
│ ├── kuberay-cluster
│ ├── kuberay-logging
│ ├── kuberay-monitoring
│ ├── kuberay-operator
│ └── kuberay-serviceaccounts
├── saxml-on-gke
│ ├── httpserver
│ └── single-host-inference
├── training-single-gpu
│ ├── README.md
│ ├── data
│ └── src
├── tutorial.md
└── tutorials
├── e2e-genai-langchain-app
├── finetuning-llama-7b-on-l4
└── serving-llama2-70b-on-l4-gpus
이 저장소에는 Google Kubernetes Engine에서 JupyterHub를 실행하기 위한 Terraform 템플릿이 포함되어 있습니다. 또한 Ray AIR를 사용하여 GPT-J-6B 모델을 제공하는 노트북을 포함하여 몇 가지 예제 노트북( applications/ray/example_notebooks
아래)도 포함했습니다(원본 노트북은 여기 참조). 이를 실행하려면 application/ray/README.md의 지침에 따라 Ray 클러스터를 설치하십시오.
이 jupyter 모듈은 사용자당 한 번씩 다음 리소스를 배포합니다.
여기에서 GKE 기반 JupyterHub에 대해 자세히 알아보세요.
이 저장소에는 Google Kubernetes Engine에서 Ray를 실행하기 위한 Terraform 템플릿이 포함되어 있습니다.
이 모듈은 사용자당 한 번씩 다음을 배포합니다.
여기에서 GKE 기반 Ray에 대해 자세히 알아보세요.