ai on gke Download - ai on gke Download do código-fonte

ai on gke

Outro código-fonte

v1.7

Baixar

IA nos recursos do GKE

Este repositório contém ativos relacionados a cargas de trabalho de IA/ML no Google Kubernetes Engine (GKE).

Visão geral

Execute cargas de trabalho otimizadas de IA/ML com recursos de orquestração da plataforma Google Kubernetes Engine (GKE). Uma plataforma robusta de IA/ML considera as seguintes camadas:

Orquestração de infraestrutura que oferece suporte a GPUs e TPUs para treinamento e atendimento de cargas de trabalho em escala
Integração flexível com estruturas distribuídas de computação e processamento de dados
Suporte para múltiplas equipes na mesma infraestrutura para maximizar a utilização de recursos

Infraestrutura

Os módulos do aplicativo AI-on-GKE pressupõem que você já tenha um cluster funcional do GKE. Caso contrário, siga as instruções em infraestrutura/README.md para instalar um cluster GKE padrão ou Autopilot.

 .
├── LICENSE
├── README.md
├── infrastructure
│   ├── README.md
│   ├── backend.tf
│   ├── main.tf
│   ├── outputs.tf
│   ├── platform.tfvars
│   ├── variables.tf
│   └── versions.tf
├── modules
│   ├── gke-autopilot-private-cluster
│   ├── gke-autopilot-public-cluster
│   ├── gke-standard-private-cluster
│   ├── gke-standard-public-cluster
│   ├── jupyter
│   ├── jupyter_iap
│   ├── jupyter_service_accounts
│   ├── kuberay-cluster
│   ├── kuberay-logging
│   ├── kuberay-monitoring
│   ├── kuberay-operator
│   └── kuberay-serviceaccounts
└── tutorial.md

Para implantar um novo cluster do GKE, atualize o arquivo platform.tfvars com os valores apropriados e execute os comandos terraform abaixo:

 terraform init
terraform apply -var-file platform.tfvars

Aplicativos

A estrutura do repositório é semelhante a esta:

 .
├── LICENSE
├── Makefile
├── README.md
├── applications
│   ├── jupyter
│   └── ray
├── contributing.md
├── dcgm-on-gke
│   ├── grafana
│   └── quickstart
├── gke-a100-jax
│   ├── Dockerfile
│   ├── README.md
│   ├── build_push_container.sh
│   ├── kubernetes
│   └── train.py
├── gke-batch-refarch
│   ├── 01_gke
│   ├── 02_platform
│   ├── 03_low_priority
│   ├── 04_high_priority
│   ├── 05_compact_placement
│   ├── 06_jobset
│   ├── Dockerfile
│   ├── README.md
│   ├── cloudbuild-create.yaml
│   ├── cloudbuild-destroy.yaml
│   ├── create-platform.sh
│   ├── destroy-platform.sh
│   └── images
├── gke-disk-image-builder
│   ├── README.md
│   ├── cli
│   ├── go.mod
│   ├── go.sum
│   ├── imager.go
│   └── script
├── gke-dws-examples
│   ├── README.md
│   ├── dws-queues.yaml
│   ├── job.yaml
│   └── kueue-manifests.yaml
├── gke-online-serving-single-gpu
│   ├── README.md
│   └── src
├── gke-tpu-examples
│   ├── single-host-inference
│   └── training
├── indexed-job
│   ├── Dockerfile
│   ├── README.md
│   └── mnist.py
├── jobset
│   └── pytorch
├── modules
│   ├── gke-autopilot-private-cluster
│   ├── gke-autopilot-public-cluster
│   ├── gke-standard-private-cluster
│   ├── gke-standard-public-cluster
│   ├── jupyter
│   ├── jupyter_iap
│   ├── jupyter_service_accounts
│   ├── kuberay-cluster
│   ├── kuberay-logging
│   ├── kuberay-monitoring
│   ├── kuberay-operator
│   └── kuberay-serviceaccounts
├── saxml-on-gke
│   ├── httpserver
│   └── single-host-inference
├── training-single-gpu
│   ├── README.md
│   ├── data
│   └── src
├── tutorial.md
└── tutorials
    ├── e2e-genai-langchain-app
    ├── finetuning-llama-7b-on-l4
    └── serving-llama2-70b-on-l4-gpus

Centro Jupyter

Este repositório contém um modelo Terraform para executar o JupyterHub no Google Kubernetes Engine. Também incluímos alguns notebooks de exemplo (em applications/ray/example_notebooks ), incluindo um que atende um modelo GPT-J-6B com Ray AIR (veja aqui o notebook original). Para executá-los, siga as instruções em apps/ray/README.md para instalar um cluster Ray.

Este módulo jupyter implanta os seguintes recursos, uma vez por usuário: