qwen2 in a lambda Download - qwen2 in a lambda Quellcode-Download

qwen2 in a lambda

AI-Quellcode

1.0.0

Herunterladen

Qwen in einem Lambda

Aktualisiert am 09.11.2024

(Markieren Sie das Datum, da sich LLM-APIs in Python so schnell bewegen und möglicherweise wichtige Änderungen einführen, bis jemand anderes dies liest!)

Einführung:

Dies ist eine kleine Untersuchung darüber, wie wir Qwen GGUF-Modelldateien mithilfe von Docker und SAM CLI in AWS Lambda einfügen können
Angepasst von https://makit.net/blog/llm-in-a-lambda-function/
- Mit Stand vom 24. September sind einige erforderliche Betriebssystempakete nicht in der obigen Anleitung und anschließend in der Docker-Datei enthalten, da lama-cpp-python @ 0.2.90 möglicherweise nicht die erforderlichen Betriebssystempakete enthält (?)
- Wer weiß, ob es in Zukunft noch etwas Neues und Ungewöhnliches geben wird :achselzucken:

Motivation:

Ich wollte herausfinden, ob ich meine AWS-Ausgaben reduzieren kann, indem ich nur die Funktionen von Lambda und nicht Lambda + Bedrock nutze, da beide Dienste auf lange Sicht höhere Kosten verursachen würden.
Die Idee bestand darin, ein kleines Sprachmodell zu integrieren, das relativ gesehen nicht so ressourcenintensiv wäre, und hoffentlich eine Latenz von weniger als einer Sekunde bei einer Speicherkonfiguration von 128 bis 256 MB zu erreichen
Ich wollte auch GGUF-Modelle verwenden, um verschiedene Quantisierungsstufen zu verwenden und herauszufinden, welche Leistung/Dateigröße am besten zum Laden in den Speicher geeignet ist
- Meine Experimente führten dazu, dass ich Qwen2 1.5b Q5_K_M verwendete, da es lokal die beste „Leistung“ und „Latenz“ hatte, um Eingabeaufforderungen zu empfangen und die JSON-Struktur mithilfe von llama-cpp auszuspucken

Voraussetzungen:

Docker
AWS SAM-CLI
AWS CLI
Python 3.11
ECR-Berechtigungen
Lambda-Berechtigungen
Laden Sie qwen2-1_5b-instruct-q5_k_m.gguf in qwen_fuction/function/
- Oder laden Sie beliebige andere .gguf-Modelle herunter und ändern Sie Ihren Modellpfad in app.y / LOCAL_PATH

Einrichtungsanleitung:

Installieren Sie Pip-Pakete unter qwen_function/function/requirements.txt (vorzugsweise in einer Venv/Conda-Umgebung).
Führen Sie sam build / sam validate aus
Führen Sie sam local start-api aus, um lokal zu testen
Führen Sie curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate aus, um den LLM aufzufordern
- Oder verwenden Sie Ihre bevorzugten API-Clients
Führen Sie sam deploy --guided aus, um die Bereitstellung in AWS durchzuführen
Dadurch wird ein Cloudformation-Stack bereitgestellt, der aus einem API-Gateway und einer Lambda-Funktion besteht

Metriken

Localhost – MacBook M3 Pro 32 GB

Alternativtext

AWS
- Erstkonfiguration – 128 MB, 30 Sekunden Zeitüberschreitung
  - Lambda-Zeitüberschreitung! Beim Kaltstart kam es zu einem Lambda-Timeout
- Angepasste Konfiguration Nr. 1 – 512 MB, 30 Sekunden Zeitüberschreitung
  - Lambda-Zeitüberschreitung! Beim Kaltstart kam es zu einem Lambda-Timeout
- Angepasste Konfiguration Nr. 2 – 512 MB, 30 Sekunden Zeitüberschreitung
  - Lambda-Zeitüberschreitung! Beim Kaltstart kam es zu einem Lambda-Timeout

Alternativtext

Angepasste Konfiguration Nr. 3 – 3008 MB, 30 Sekunden Zeitüberschreitung – Kaltstart

Alternativtext

Angepasste Konfiguration Nr. 3 – 3008 MB, 30 Sekunden Zeitüberschreitung – Warmstart

Alternativtext

Beobachtung

Zurück zur Preisstruktur von Lambda:
- Preise
- 1536 MB / 1,465 s / 0,024638 $ über 1000 Lambda-Aufrufe
  - Qwen2 1.5b ließ mich den Speicher auf 3008 MB hochdrehen, nur um keine Zeitüberschreitung zu verursachen und eine Latenzantwort von 4 bis 11 Sekunden zu erhalten!
- Claude 3 Haiku / 0,00025 $ / 0,00125 $ über 1000 Input-Tokens und 1000 Output-Tokens / Asien – Tokio
Es kann günstiger sein, einfach ein gehostetes LLM mit AWS Bedrock usw. in der Cloud zu verwenden, da die Preisstruktur für Lambda mit Qwen im Vergleich zu Claude 3 Haiku nicht wettbewerbsfähiger erscheint
Darüber hinaus lässt sich das API-Gateway-Timeout nicht einfach über das 30-Sekunden-Timeout hinaus konfigurieren. Abhängig von Ihrem Anwendungsfall ist dies möglicherweise nicht sehr ideal
Ergebnisse über lokal hängen von Ihren Maschinenspezifikationen ab!! und kann Ihre Wahrnehmung, Ihre Erwartungen gegenüber der Realität stark verzerren
Abhängig von Ihrem Anwendungsfall kann die Latenz pro Lambda-Aufruf und -Antworten auch zu einer schlechten Benutzererfahrung führen

Abschluss

Alles in allem denke ich, dass dies ein lustiges kleines Experiment war, auch wenn es den Budget- und Latenzanforderungen von Qwen 1.5b für mein Nebenprojekt nicht ganz entsprach. Nochmals vielen Dank an @makit für die Anleitung!

Expandieren

Zusätzliche Informationen