qwen2 in a lambda - qwen2 in a lambda

qwen2 in a lambda

Código Fuente de IA

1.0.0

Descargar

Qwen en una Lambda

Actualizado el 09/11/2024

(¡Marcando la fecha debido a la rapidez con la que se mueven las API de LLM en Python y puede introducir cambios importantes cuando alguien más lea esto!)

Introducción:

Esta es una investigación menor sobre cómo podemos colocar archivos de modelo Qwen GGUF en AWS Lambda usando Docker y SAM CLI.
Adaptado de https://makit.net/blog/llm-in-a-lambda-function/
- A partir del 24 de septiembre, algunos paquetes de sistema operativo requeridos no están incluidos en la guía anterior y posteriormente en el Dockerfile, ya que potencialmente llama-cpp-python @ 0.2.90 no incluye los paquetes de sistema operativo requeridos (?)
- Quién sabe si habrá algo nuevo e innovador que aparecerá en el futuro :shrugs:

Motivación:

Quería saber si puedo reducir mi gasto en AWS aprovechando únicamente las capacidades de Lambda y no de Lambda + Bedrock, ya que ambos servicios generarían más costos a largo plazo.
La idea era adaptarse a un modelo de lenguaje pequeño que no consumiría tantos recursos en términos relativos y, con suerte, recibir una latencia de subsegundo a segundo en una configuración de memoria de 128 a 256 MB.
También quería usar modelos GGUF para usar diferentes niveles de cuantificación para descubrir cuál es el mejor rendimiento/tamaño de archivo para cargar en la memoria.
- Mi experimentación me llevó a usar Qwen2 1.5b Q5_K_M ya que tenía el mejor "rendimiento" y "latencia" localmente para recibir mensajes y escupir la estructura JSON usando llama-cpp.

Requisitos previos:

Estibador
CLI de AWS SAM
CLI de AWS
Pitón 3.11
Permisos de ECR
permisos lambda
Descargue qwen2-1_5b-instruct-q5_k_m.gguf en qwen_fuction/function/
- O descargue cualquier otro modelo .gguf que desee y cambie la ruta de su modelo en app.y / LOCAL_PATH

Guía de configuración:

Instale paquetes pip en qwen_function/function/requirements.txt (preferiblemente en un entorno venv/conda)
Ejecute sam build / sam validate
Ejecute sam local start-api para realizar pruebas localmente
Ejecute curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate para solicitar el LLM
- O utilice sus clientes API preferidos
Ejecute sam deploy --guided para implementar en AWS
Esto implementará una pila de formación en la nube que consta de una puerta de enlace API y una función Lambda.

Métrica

Localhost - Macbook M3 Pro 32GB

texto alternativo

AWS
- Configuración inicial: 128 MB, tiempo de espera de 30 s
  - ¡Lambda agotó el tiempo de espera! El arranque en frío estaba agotando el tiempo de la lambda
- Configuración ajustada n.º 1: 512 MB, tiempo de espera de 30 s
  - ¡Lambda agotó el tiempo de espera! El arranque en frío estaba agotando el tiempo de la lambda
- Configuración ajustada n.º 2: 512 MB, tiempo de espera de 30 s
  - ¡Lambda agotó el tiempo de espera! El arranque en frío estaba agotando el tiempo de la lambda

texto alternativo

Configuración ajustada n.º 3: 3008 MB, tiempo de espera de 30 s: arranque en frío

texto alternativo

Configuración ajustada n.º 3: 3008 MB, tiempo de espera de 30 s: inicio en caliente

texto alternativo

Observación

Volviendo a la estructura de precios de Lambda,
- Precios
- 1536 MB / 1,465 s / $0,024638 más de 1000 invocaciones Lambda
  - ¡Qwen2 1.5b me hizo aumentar la memoria a 3008 MB solo para no agotar el tiempo y recibir una respuesta de latencia de 4 a 11 segundos!
- Claude 3 Haiku / $0.00025 / $0.00125 más de 1000 tokens de entrada y 1000 tokens de salida / Asia - Tokio
Puede ser más económico simplemente usar un LLM alojado usando AWS Bedrock, etc. en la nube, ya que la estructura de precios de Lambda con Qwen no parece más competitiva en comparación con Claude 3 Haiku.
Además, el tiempo de espera de la puerta de enlace API no se puede configurar fácilmente más allá del tiempo de espera de 30 segundos; dependiendo de su caso de uso, esto puede no ser muy ideal.
¡Los resultados vía local dependen de las especificaciones de su máquina! y puede distorsionar en gran medida su percepción, expectativa versus realidad
Dependiendo también de su caso de uso, la latencia por invocación y respuesta lambda puede generar malas experiencias de usuario.

Conclusión

Considerándolo todo, creo que este fue un pequeño experimento divertido a pesar de que no cumplió con los requisitos de presupuesto y latencia a través de Qwen 1.5b para mi proyecto paralelo. ¡Gracias a @makit nuevamente por la guía!

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-29
tamaño 121.15KB
Proviene de Github

Aplicaciones relacionadas

Qwen2 VL

2024-11-07
IDLE Ships Barcos en una versión móvil de Botellas

2024-02-09
Bob Esponja Aventuras En Una Versión China Jam

2023-07-24
Agente A: Un rompecabezas disfrazado

2022-08-28
Encuentra una salida en lo perdido

2022-08-11
PHP en pocas palabras

2009-05-24

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo