qwen2 in a lambda - qwen2 in a lambda

qwen2 in a lambda

Code Source AI

1.0.0

Télécharger

Qwen dans une Lambda

Mis à jour le 11/09/2024

(Marquer la date en raison de la rapidité avec laquelle les API LLM dans Python évoluent et peut introduire des modifications importantes au moment où quelqu'un d'autre lira ceci !)

Introduction :

Il s'agit d'une recherche mineure sur la façon dont nous pouvons placer les fichiers de modèle Qwen GGUF dans AWS Lambda à l'aide de Docker et de SAM CLI.
Adapté de https://makit.net/blog/llm-in-a-lambda-function/
- Depuis le 24 septembre, certains packages de système d'exploitation requis ne sont pas inclus dans le guide ci-dessus et par la suite dans le Dockerfile, car potentiellement le lama-cpp-python @ 0.2.90 n'inclut pas les packages de système d'exploitation requis (?)
- Qui sait s'il y aura quelque chose de nouveau et de révolutionnaire qui apparaîtra dans le futur :hausse les épaules:

Motivation:

Je voulais savoir si je pouvais réduire mes dépenses AWS en tirant uniquement parti des capacités de Lambda et non de Lambda + Bedrock, car les deux services entraîneraient des coûts plus élevés à long terme.
L'idée était d'adapter un petit modèle de langage qui ne serait pas aussi gourmand en ressources et, espérons-le, de recevoir une latence inférieure à une seconde sur une configuration de mémoire de 128 à 256 Mo.
Je voulais également utiliser les modèles GGUF pour utiliser différents niveaux de quantification afin de déterminer quelle est la meilleure performance/taille de fichier à charger en mémoire.
- Mon expérimentation m'a amené à utiliser Qwen2 1.5b Q5_K_M car il avait les meilleures "performances" et "latences" localement pour recevoir une invite et cracher une structure JSON à l'aide de lama-cpp.

Prérequis :

Docker
CLI AWS SAM
AWS CLI
Python 3.11
Autorisations ECR
Autorisations Lambda
Téléchargez qwen2-1_5b-instruct-q5_k_m.gguf dans qwen_fuction/function/
- Ou téléchargez tout autre modèle .gguf que vous souhaitez et modifiez le chemin de votre modèle dans app.y / LOCAL_PATH

Guide de configuration :

Installez les packages pip sous qwen_function/function/requirements.txt (de préférence dans un environnement venv/conda)
Exécutez sam build / sam validate
Exécutez sam local start-api pour tester localement
Exécutez curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate pour inviter le LLM
- Ou utilisez vos clients API préférés
Exécutez sam deploy --guided pour déployer sur AWS
Cela permettra de déployer une pile cloudformation composée d'une passerelle API et d'une fonction Lambda.

Métrique

Localhost - Macbook M3 Pro 32 Go

texte alternatif

AWS
- Configuration initiale - 128 Mo, délai d'attente de 30 s
  - Lambda a expiré ! Le démarrage à froid chronométrait le lambda
- Configuration n° 1 - 512 Mo, délai d'attente de 30 s
  - Lambda a expiré ! Le démarrage à froid chronométrait le lambda
- Configuration ajustée n°2 - 512 Mo, délai d'attente de 30 s
  - Lambda a expiré ! Le démarrage à froid chronométrait le lambda

texte alternatif

Configuration ajustée n°3 - 3008 Mo, délai d'attente de 30 secondes - démarrage à froid

texte alternatif

Configuration ajustée n°3 - 3008 Mo, délai d'attente de 30 secondes - démarrage à chaud

texte alternatif

Observation

En revenant à la structure tarifaire de Lambda,
- Tarifs
- 1 536 Mo / 1,465 s / 0,024638 $ sur 1 000 appels Lambda
  - Qwen2 1.5b m'a fait augmenter la mémoire à 3008 Mo juste pour ne pas expirer et recevoir une réponse de latence de 4 à 11 secondes !
- Claude 3 Haiku / 0,00025 $ / 0,00125 $ sur 1000 jetons d'entrée et 1000 jetons de sortie / Asie - Tokyo
Il peut être moins cher d'utiliser simplement un LLM hébergé utilisant AWS Bedrock, etc. sur le cloud, car la structure tarifaire de Lambda avec Qwen ne semble pas plus compétitive par rapport à Claude 3 Haiku.
De plus, le délai d'expiration de la passerelle API n'est pas facilement configurable au-delà du délai d'attente de 30 secondes, selon votre cas d'utilisation, cela peut ne pas être très idéal.
Les résultats via local dépendent des spécifications de votre machine !! et peut fausser considérablement votre perception, vos attentes par rapport à la réalité
En fonction également de votre cas d'utilisation, la latence par invocation et réponses lambda peut entraîner une mauvaise expérience utilisateur.

Conclusion

Dans l’ensemble, je pense que c’était une petite expérience amusante même si elle n’a pas vraiment répondu aux exigences de budget et de latence via Qwen 1.5b pour mon projet parallèle. Merci encore à @makit pour le guide !

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-29
taille 121.15KB
Provenant de Github

Applications connexes

Qwen2 VL

2024-11-07
IDLE Ships Bateaux dans une version mobile de bouteilles

2024-02-09
Bob l'éponge Adventures In A Jam version chinoise

2023-07-24
Agent A : Un casse-tête déguisé

2022-08-28
Trouver une issue dans le perdu

2022-08-11
PHP en quelques mots

2009-05-24

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout