Descargar ai on gke - Descarga del código fuente ai on gke

ai on gke

Otro código fuente

v1.7

Descargar

IA en recursos de GKE

Este repositorio contiene recursos relacionados con cargas de trabajo de IA/ML en Google Kubernetes Engine (GKE).

Descripción general

Ejecute cargas de trabajo de IA/ML optimizadas con las capacidades de orquestación de la plataforma Google Kubernetes Engine (GKE). Una plataforma robusta de IA/ML considera las siguientes capas:

Orquestación de infraestructura que admite GPU y TPU para entrenar y atender cargas de trabajo a escala
Integración flexible con marcos de procesamiento de datos y computación distribuida
Soporte para múltiples equipos en la misma infraestructura para maximizar la utilización de los recursos

Infraestructura

Los módulos de aplicación AI-on-GKE suponen que ya tienes un clúster de GKE funcional. De lo contrario, siga las instrucciones en infraestructura/README.md para instalar un clúster de GKE estándar o de piloto automático.

 .
├── LICENSE
├── README.md
├── infrastructure
│   ├── README.md
│   ├── backend.tf
│   ├── main.tf
│   ├── outputs.tf
│   ├── platform.tfvars
│   ├── variables.tf
│   └── versions.tf
├── modules
│   ├── gke-autopilot-private-cluster
│   ├── gke-autopilot-public-cluster
│   ├── gke-standard-private-cluster
│   ├── gke-standard-public-cluster
│   ├── jupyter
│   ├── jupyter_iap
│   ├── jupyter_service_accounts
│   ├── kuberay-cluster
│   ├── kuberay-logging
│   ├── kuberay-monitoring
│   ├── kuberay-operator
│   └── kuberay-serviceaccounts
└── tutorial.md

Para implementar un nuevo clúster de GKE, actualice el archivo platform.tfvars con los valores apropiados y luego ejecute los siguientes comandos de terraform:

 terraform init
terraform apply -var-file platform.tfvars

Aplicaciones

La estructura del repositorio se ve así:

 .
├── LICENSE
├── Makefile
├── README.md
├── applications
│   ├── jupyter
│   └── ray
├── contributing.md
├── dcgm-on-gke
│   ├── grafana
│   └── quickstart
├── gke-a100-jax
│   ├── Dockerfile
│   ├── README.md
│   ├── build_push_container.sh
│   ├── kubernetes
│   └── train.py
├── gke-batch-refarch
│   ├── 01_gke
│   ├── 02_platform
│   ├── 03_low_priority
│   ├── 04_high_priority
│   ├── 05_compact_placement
│   ├── 06_jobset
│   ├── Dockerfile
│   ├── README.md
│   ├── cloudbuild-create.yaml
│   ├── cloudbuild-destroy.yaml
│   ├── create-platform.sh
│   ├── destroy-platform.sh
│   └── images
├── gke-disk-image-builder
│   ├── README.md
│   ├── cli
│   ├── go.mod
│   ├── go.sum
│   ├── imager.go
│   └── script
├── gke-dws-examples
│   ├── README.md
│   ├── dws-queues.yaml
│   ├── job.yaml
│   └── kueue-manifests.yaml
├── gke-online-serving-single-gpu
│   ├── README.md
│   └── src
├── gke-tpu-examples
│   ├── single-host-inference
│   └── training
├── indexed-job
│   ├── Dockerfile
│   ├── README.md
│   └── mnist.py
├── jobset
│   └── pytorch
├── modules
│   ├── gke-autopilot-private-cluster
│   ├── gke-autopilot-public-cluster
│   ├── gke-standard-private-cluster
│   ├── gke-standard-public-cluster
│   ├── jupyter
│   ├── jupyter_iap
│   ├── jupyter_service_accounts
│   ├── kuberay-cluster
│   ├── kuberay-logging
│   ├── kuberay-monitoring
│   ├── kuberay-operator
│   └── kuberay-serviceaccounts
├── saxml-on-gke
│   ├── httpserver
│   └── single-host-inference
├── training-single-gpu
│   ├── README.md
│   ├── data
│   └── src
├── tutorial.md
└── tutorials
    ├── e2e-genai-langchain-app
    ├── finetuning-llama-7b-on-l4
    └── serving-llama2-70b-on-l4-gpus

Centro Jupyter

Este repositorio contiene una plantilla de Terraform para ejecutar JupyterHub en Google Kubernetes Engine. También hemos incluido algunos portátiles de ejemplo (en applications/ray/example_notebooks ), incluido uno que sirve para un modelo GPT-J-6B con Ray AIR (consulte aquí el portátil original). Para ejecutarlos, siga las instrucciones en apps/ray/README.md para instalar un clúster Ray.

Este módulo jupyter implementa los siguientes recursos, una vez por usuario: