llama3 playground Descargar - llama3 playground Descarga del código fuente

Parque Infantil Llama 3

Un entorno completo y listo para ejecutar para ajustar el modelo Llama 3 con un conjunto de datos personalizado y ejecutar inferencias en los modelos ajustados.

Requisitos

Estibador
GPU Nvidia

Nota: Hasta el momento, esto solo se ha probado en las GPU NVIDIA RTX 2080 y NVIDIA Tesla T4. No se ha probado con otras clases de GPU ni en CPU.

Ejecute este comando en su máquina host para verificar qué GPU Nvidia ha instalado.

nvidia-smi

Eso debería mostrar la información de tu GPU.

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.171.04             Driver Version: 535.171.04   CUDA Version: 12.2     |
| -----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
| =========================================+======================+====================== |
|   0  NVIDIA GeForce RTX 2080        Off | 00000000:01:00.0  On |                  N/A |
| 22%   38C    P8              17W / 215W |    197MiB /  8192MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

¿Qué contiene la configuración/imagen?

Pitón 3.10
JupyterLab
CLI de HuggingFace
EasyOCR (con el modelo de detección en inglés predescargado). Esto es para ejecutar el reconocimiento de caracteres en archivos PDF/imagen.
Modelo Llama3 predescargado
Scripts para ejecutar OCR, entrenamiento e inferencia.
Conjunto de datos de muestra para ajustar el modelo

Configuración

git clone https://github.com/amithkoujalgi/llama3-playground.git
cd llama3-playground

bash build.sh

Correr

bash run.sh

Esto inicia el contenedor Docker con los siguientes servicios.

Servicio	Punto final accesible externamente	Puerto interno	Descripción
Supervisor	http://localhost:8884	9001	Para ejecutar capacitación en un conjunto de datos personalizado y ver registros del proceso del entrenador
Servidor FastAPI	http://localhost:8883/docs	8070	Para acceder a las API del servidor modelo
Servidor JupyterLab	http://localhost:8888/lab	8888	Acceda a la interfaz de JupyterLab para explorar el contenedor y actualizar/experimentar con el código.

Nota : Todos los procesos (OCR, entrenamiento e inferencia) utilizan GPU y si se ejecutara más de un proceso de cualquier tipo simultáneamente, encontraríamos problemas de falta de memoria (OOM). Para manejar esto, el sistema ha sido diseñado para ejecutar solo un proceso en un momento dado. (es decir, solo se puede ejecutar una instancia de OCR o entrenamiento o inferencia a la vez)
No dude en actualizar el código según sus necesidades.

Ejecutando comandos desde Jupyter

modelo de tren

Vaya a la terminal y escriba

playground --train

Listar modelos

Vaya a la terminal y escriba

playground -l

Esto produce modelos en /app/data/trained-models/ . El script del entrenador produce 2 modelos:

un modelo que tiene solo los adaptadores LoRA y tiene el sufijo lora-adapters .
un modelo completo que solo tiene los adaptadores LoRA fusionados con el modelo base.

Ejecute OCR:

 cd /app/llama3_playground/core

python ocr.py 
  -f " /app/sample.pdf "

Para comprender qué significan las opciones, vaya a JupyterLab y ejecute python ocr.py -h

Inferencia con RAG:

 cd /app/llama3_playground/core

python infer_rag.py 
  -m " llama-3-8b-instruct-custom-1720802202 " 
  -d " /app/data/ocr-runs/123/text-result.txt " 
  -q " What is the employer name, address, telephone, TIN, tax year end, type of business, plan name, Plan Sequence Number, Trust ID, Account number, is it a new plan or existing plan as true or false, are elective deferrals and roth deferrals allowed as true or false, are loans permitted as true or false, are life insurance investments permitted and what is the ligibility Service Requirement selected? " 
  -t 256 
  -e " Alibaba-NLP/gte-base-en-v1.5 " 
  -p " There are checkboxes in the text that denote the value as selected if the text is [Yes], and unselected if the text is [No]. The checkbox option's value can either be before the selected value or after. Keep this in context while responding and be very careful and precise in picking these values. Always respond as JSON. Keep the responses precise and concise. "

Para comprender qué significan las opciones, vaya a JupyterLab y ejecute python infer_rag.py -h

Instrucciones de configuración adicionales

Esto sería necesario si no tiene NVIDIA Container Toolkit instalado en su máquina host.

Instale NVIDIA Container Toolkit si está ejecutando un host Ubuntu

 # Configure the production repository
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg 
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | 
    sed ' s#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g ' | 
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

# Optionally, configure the repository to use experimental packages
sed -i -e ' /experimental/ s/^#//g ' /etc/apt/sources.list.d/nvidia-container-toolkit.list

# Update the packages list from the repository
sudo apt-get update

# Install the NVIDIA Container Toolkit packages
sudo apt-get install -y nvidia-container-toolkit

Para otros entornos, consulte esto.

API

Inferencia

Generar respuesta del modelo.

curl --silent -X ' POST ' 
  ' http://localhost:8883/api/infer/sync/ctx-text ' 
  -H ' accept: application/json ' 
  -H ' Content-Type: application/json ' 
  -d ' {
  "model_name": "llama-3-8b-instruct-custom-1720690384",
  "context_data": "You are a magician who goes by the name Magica",
  "question_text": "Who are you?",
  "prompt_text": "Respond in a musical and Shakespearean tone",
  "max_new_tokens": 50
} ' | jq -r " .data.response "

LOC

Ejecute OCR en un archivo PDF cargando el archivo

curl -X ' POST ' 
  ' http://localhost:8883/api/ocr/sync/pdf ' 
  -H ' accept: application/json ' 
  -H ' Content-Type: multipart/form-data ' 
  -F ' file=@your_file.pdf;type=application/pdf '

Obtenga el estado del proceso de OCR. Devuelve `true` si se está ejecutando algún proceso de OCR; `false` en caso contrario.

curl -X ' GET ' 
  ' http://localhost:8883/api/ocr/status ' 
  -H ' accept: application/json '

Referencias:

https://huggingface.co/unsloth/llama-3-8b-bnb-4bit
https://huggingface.co/unsloth/llama-3-8b-Instruct-bnb-4bit
https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp?usp=sharing
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

Expandir

llama3 playground

Parque Infantil Llama 3

Requisitos

¿Qué contiene la configuración/imagen?

Configuración

Correr

Ejecutando comandos desde Jupyter

modelo de tren

Listar modelos

Instrucciones de configuración adicionales

Instale NVIDIA Container Toolkit si está ejecutando un host Ubuntu

API

Inferencia

Generar respuesta del modelo.

LOC

Ejecute OCR en un archivo PDF cargando el archivo

Obtenga el estado del proceso de OCR. Devuelve `true` si se está ejecutando algún proceso de OCR; `false` en caso contrario.

llama3

Juego Nextbots Sandbox Playground

Juego Battle Ragdoll Playground

Patio de juegos de melón

Melon Playground última versión

Patio de recreo de personas

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

llama3 playground

Parque Infantil Llama 3

Requisitos

¿Qué contiene la configuración/imagen?

Configuración

Correr

Ejecutando comandos desde Jupyter

modelo de tren

Listar modelos

Instrucciones de configuración adicionales

Instale NVIDIA Container Toolkit si está ejecutando un host Ubuntu

API

Inferencia

Generar respuesta del modelo.

LOC

Ejecute OCR en un archivo PDF cargando el archivo

Obtenga el estado del proceso de OCR. Devuelve true si se está ejecutando algún proceso de OCR; false en caso contrario.

Obtenga el estado del proceso de OCR. Devuelve `true` si se está ejecutando algún proceso de OCR; `false` en caso contrario.