ai on gke تنزيل - ai on gke تنزيل كود المصدر

ai on gke

شفرة المصدر الأخرى

v1.7

تنزيل

الذكاء الاصطناعي على أصول GKE

يحتوي هذا المستودع على أصول ذات صلة بأحمال عمل الذكاء الاصطناعي/تعلم الآلة على Google Kubernetes Engine (GKE).

ملخص

قم بتشغيل أحمال عمل AI/ML المحسنة باستخدام إمكانات تنسيق النظام الأساسي لـ Google Kubernetes Engine (GKE). تأخذ منصة AI/ML القوية في الاعتبار الطبقات التالية:

تنسيق البنية التحتية التي تدعم وحدات معالجة الرسومات ووحدات TPU للتدريب وخدمة أعباء العمل على نطاق واسع
التكامل المرن مع أطر الحوسبة الموزعة ومعالجة البيانات
دعم فرق متعددة على نفس البنية التحتية لتحقيق أقصى استفادة من الموارد

بنية تحتية

تفترض وحدات تطبيق AI-on-GKE أن لديك بالفعل مجموعة GKE وظيفية. إذا لم يكن الأمر كذلك، فاتبع الإرشادات الموجودة ضمن البنية التحتية/README.md لتثبيت مجموعة Standard أو Autopilot GKE.

 .
├── LICENSE
├── README.md
├── infrastructure
│   ├── README.md
│   ├── backend.tf
│   ├── main.tf
│   ├── outputs.tf
│   ├── platform.tfvars
│   ├── variables.tf
│   └── versions.tf
├── modules
│   ├── gke-autopilot-private-cluster
│   ├── gke-autopilot-public-cluster
│   ├── gke-standard-private-cluster
│   ├── gke-standard-public-cluster
│   ├── jupyter
│   ├── jupyter_iap
│   ├── jupyter_service_accounts
│   ├── kuberay-cluster
│   ├── kuberay-logging
│   ├── kuberay-monitoring
│   ├── kuberay-operator
│   └── kuberay-serviceaccounts
└── tutorial.md

لنشر مجموعة GKE جديدة، قم بتحديث ملف platform.tfvars بالقيم المناسبة ثم قم بتنفيذ أوامر terraform أدناه:

 terraform init
terraform apply -var-file platform.tfvars

التطبيقات

يبدو هيكل الريبو كما يلي:

 .
├── LICENSE
├── Makefile
├── README.md
├── applications
│   ├── jupyter
│   └── ray
├── contributing.md
├── dcgm-on-gke
│   ├── grafana
│   └── quickstart
├── gke-a100-jax
│   ├── Dockerfile
│   ├── README.md
│   ├── build_push_container.sh
│   ├── kubernetes
│   └── train.py
├── gke-batch-refarch
│   ├── 01_gke
│   ├── 02_platform
│   ├── 03_low_priority
│   ├── 04_high_priority
│   ├── 05_compact_placement
│   ├── 06_jobset
│   ├── Dockerfile
│   ├── README.md
│   ├── cloudbuild-create.yaml
│   ├── cloudbuild-destroy.yaml
│   ├── create-platform.sh
│   ├── destroy-platform.sh
│   └── images
├── gke-disk-image-builder
│   ├── README.md
│   ├── cli
│   ├── go.mod
│   ├── go.sum
│   ├── imager.go
│   └── script
├── gke-dws-examples
│   ├── README.md
│   ├── dws-queues.yaml
│   ├── job.yaml
│   └── kueue-manifests.yaml
├── gke-online-serving-single-gpu
│   ├── README.md
│   └── src
├── gke-tpu-examples
│   ├── single-host-inference
│   └── training
├── indexed-job
│   ├── Dockerfile
│   ├── README.md
│   └── mnist.py
├── jobset
│   └── pytorch
├── modules
│   ├── gke-autopilot-private-cluster
│   ├── gke-autopilot-public-cluster
│   ├── gke-standard-private-cluster
│   ├── gke-standard-public-cluster
│   ├── jupyter
│   ├── jupyter_iap
│   ├── jupyter_service_accounts
│   ├── kuberay-cluster
│   ├── kuberay-logging
│   ├── kuberay-monitoring
│   ├── kuberay-operator
│   └── kuberay-serviceaccounts
├── saxml-on-gke
│   ├── httpserver
│   └── single-host-inference
├── training-single-gpu
│   ├── README.md
│   ├── data
│   └── src
├── tutorial.md
└── tutorials
    ├── e2e-genai-langchain-app
    ├── finetuning-llama-7b-on-l4
    └── serving-llama2-70b-on-l4-gpus

جوبيتر هاب

يحتوي هذا المستودع على قالب Terraform لتشغيل JupyterHub على Google Kubernetes Engine. لقد قمنا أيضًا بتضمين بعض نماذج دفاتر الملاحظات (ضمن applications/ray/example_notebooks )، بما في ذلك جهاز يخدم طراز GPT-J-6B مع Ray AIR (انظر هنا للحصول على دفتر الملاحظات الأصلي). لتشغيلها، اتبع الإرشادات الموجودة على apps/ray/README.md لتثبيت مجموعة Ray.

تنشر وحدة jupyter هذه الموارد التالية، مرة واحدة لكل مستخدم: