qwen2 in a lambda下載 - qwen2 in a lambda原始碼下載

中文(繁体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首頁>編程相關>Ai源碼

qwen2 in a lambda

Ai源碼

1.0.0

下載

Lambda 中的 Qwen

更新於 11/09/2024

（標記日期是因為 Python 中的 LLM API 發展得非常快，並且在其他人閱讀本文時可能會引入重大更改！）

簡介：

這是一個關於如何使用 Docker 和 SAM CLI 將 Qwen GGUF 模型檔案放入 AWS Lambda 的小研究
改編自https://makit.net/blog/llm-in-a-lambda-function/
- 截至 24 年 9 月，上述指南和隨後的 Dockerfile 中均未包含一些必需的作業系統軟體包，因為 llama-cpp-python @ 0.2.90 可能不包含所需的作業系統軟體包（？）
- 誰知道將來是否會出現任何新的和突破性的東西：聳肩：

動機：

我想知道是否可以透過僅利用 Lambda 的功能而不是 Lambda + Bedrock 來減少 AWS 支出，因為從長遠來看，這兩種服務都會產生更多成本。
這個想法是為了適應一個小型語言模型，相對而言，該模型不會那麼資源密集，並且希望在 128 - 256 mb 內存配置上接收亞秒到秒的延遲
我還想使用 GGUF 模型來使用不同程度的量化來找出載入到記憶體中的最佳效能/檔案大小
- 我的實驗導致我使用 Qwen2 1.5b Q5_K_M，因為它在本地具有最佳的“性能”和“延遲”，可以使用 llama-cpp 接收提示並吐出 JSON 結構

先決條件：

碼頭工人
AWS SAM CLI
AWS CLI
Python 3.11
ECR權限
Lambda 權限
下載qwen2-1_5b-instruct-q5_k_m.gguf到qwen_fuction/function/
- 或下載您想要的任何其他 .gguf 模型並在app.y / LOCAL_PATH中更改模型路徑

設定指南：

在qwen_function/function/requirements.txt下安裝 pip 套件（最好在 venv/conda 環境）
運行sam build / sam validate
運行sam local start-api在本地進行測試
執行curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate提示LLM
- 或使用您首選的 API 用戶端
執行sam deploy --guided以部署到 AWS
這將部署一個由 API 閘道和 Lambda 函數組成的 cloudformation 堆疊

指標

本機 - Macbook M3 Pro 32 GB

替代文字

AWS
- 初始配置 - 128mb，30 秒逾時
  - 拉姆達超時！冷啟動導致 lambda 逾時
- 調整後的配置 #1 - 512mb，30 秒逾時
  - 拉姆達超時！冷啟動導致 lambda 逾時
- 調整後的配置 #2 - 512mb，30 秒逾時
  - 拉姆達超時！冷啟動使 lambda 超時

替代文字

調整後的配置 #3 - 3008mb，30 秒逾時 - 冷啟動

替代文字

調整後的配置 #3 - 3008mb，30 秒逾時 - 熱啟動

替代文字

觀察

回顧 Lambda 的定價結構，
- 定價
- 1536 MB / 1.465 s / $0.024638 超過 1000 次 Lambda 調用
  - Qwen2 1.5b 讓我將記憶體調至 3008mb，以免超時並收到 4 - 11 秒的延遲回應！
- Claude 3 Haiku / $0.00025 / $0.00125 超過 1000 個輸入代幣和 1000 個輸出代幣 / 亞洲 - 東京
僅在雲端上使用使用 AWS Bedrock 等的託管 LLM 可能會更便宜，因為與 Claude 3 Haiku 相比，帶有 Qwen 的 Lambda 的定價結構看起來並不更具競爭力
此外，API 網關逾時不容易配置為超過 30 秒逾時，具體取決於您的用例，這可能不是很理想
本地結果取決於您的機器規格！並且可能會嚴重扭曲您的看法、期望與現實
另外，根據您的使用案例，每個 lambda 呼叫和回應的延遲可能會導致較差的使用者體驗

結論

總而言之，我認為這是一個有趣的小實驗，儘管它並沒有完全滿足我的業餘專案 Qwen 1.5b 的預算和延遲要求。再次感謝@makit 的指導！

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2024-12-29
大小 121.15KB
來自於 Github

相關應用

Qwen2 VL

2024-11-07
IDLE Ships Boats in a Bottles手機版

2024-02-09
SpongeBob Adventures In A Jam中文版

2023-07-24
特務A：偽裝的謎題

2022-08-28
在迷失中尋找出路

2022-08-11
PHP 簡介

2009-05-24

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部