qwen2 in a lambda下载 - qwen2 in a lambda源代码下载

中文(简体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首页>编程相关>Ai源码

qwen2 in a lambda

Ai源码

1.0.0

下载

Lambda 中的 Qwen

更新于 11/09/2024

（标记日期是因为 Python 中的 LLM API 发展得非常快，并且在其他人阅读本文时可能会引入重大更改！）

简介：

这是一个关于如何使用 Docker 和 SAM CLI 将 Qwen GGUF 模型文件放入 AWS Lambda 的小研究
改编自https://makit.net/blog/llm-in-a-lambda-function/
- 截至 24 年 9 月，上述指南和随后的 Dockerfile 中均未包含一些必需的操作系统软件包，因为 llama-cpp-python @ 0.2.90 可能不包含所需的操作系统软件包（？）
- 谁知道将来是否会出现任何新的和突破性的东西：耸肩：

动机：

我想知道是否可以通过仅利用 Lambda 的功能而不是 Lambda + Bedrock 来减少 AWS 支出，因为从长远来看，这两种服务都会产生更多成本。
这个想法是为了适应一个小型语言模型，相对而言，该模型不会那么资源密集，并且希望在 128 - 256 mb 内存配置上接收亚秒到秒的延迟
我还想使用 GGUF 模型来使用不同级别的量化来找出加载到内存中的最佳性能/文件大小
- 我的实验导致我使用 Qwen2 1.5b Q5_K_M，因为它在本地具有最佳的“性能”和“延迟”，可以使用 llama-cpp 接收提示并吐出 JSON 结构

先决条件：

码头工人
AWS SAM CLI
AWS CLI
Python 3.11
ECR权限
Lambda 权限
下载qwen2-1_5b-instruct-q5_k_m.gguf到qwen_fuction/function/
- 或者下载您想要的任何其他 .gguf 模型并在app.y / LOCAL_PATH中更改模型路径

设置指南：

在qwen_function/function/requirements.txt下安装 pip 包（最好在 venv/conda 环境中）
运行sam build / sam validate
运行sam local start-api在本地进行测试
运行curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate提示LLM
- 或者使用您首选的 API 客户端
运行sam deploy --guided以部署到 AWS
这将部署一个由 API 网关和 Lambda 函数组成的 cloudformation 堆栈

指标

本地主机 - Macbook M3 Pro 32 GB

替代文本

AWS
- 初始配置 - 128mb，30 秒超时
  - 拉姆达超时！冷启动使 lambda 超时
- 调整后的配置 #1 - 512mb，30 秒超时
  - 拉姆达超时！冷启动使 lambda 超时
- 调整后的配置 #2 - 512mb，30 秒超时
  - 拉姆达超时！冷启动使 lambda 超时

替代文本

调整后的配置 #3 - 3008mb，30 秒超时 - 冷启动

替代文本

调整后的配置 #3 - 3008mb，30 秒超时 - 热启动

替代文本

观察

回顾 Lambda 的定价结构，
- 定价
- 1536 MB / 1.465 s / $0.024638 超过 1000 次 Lambda 调用
  - Qwen2 1.5b 让我将内存调至 3008mb，以免超时并收到 4 - 11 秒的延迟响应！
- Claude 3 Haiku / $0.00025 / $0.00125 超过 1000 个输入代币和 1000 个输出代币 / 亚洲 - 东京
仅在云上使用使用 AWS Bedrock 等的托管 LLM 可能会更便宜，因为与 Claude 3 Haiku 相比，带有 Qwen 的 Lambda 的定价结构看起来并不更具竞争力
此外，API 网关超时不容易配置为超过 30 秒超时，具体取决于您的用例，这可能不是很理想
本地结果取决于您的机器规格！并且可能会严重扭曲您的看法、期望与现实
另外，根据您的使用案例，每个 lambda 调用和响应的延迟可能会导致较差的用户体验

结论

总而言之，我认为这是一个有趣的小实验，尽管它并没有完全满足我的业余项目 Qwen 1.5b 的预算和延迟要求。再次感谢@makit 的指导！

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2024-12-29
大小 121.15KB
来自于 Github

相关应用

Qwen2 VL

2024-11-07
IDLE Ships Boats in a Bottles手机版

2024-02-09
SpongeBob Adventures In A Jam中文版

2023-07-24
特工A：伪装的谜题

2022-08-28
在迷失中寻找出路

2022-08-11
PHP 简介

2009-05-24

为您推荐

chat.petals.dev

其他源码

1.0.0
GPT Prompt Templates

其他源码

1.0.0
GPTyped

其他源码

GPTyped 1.0.5
node telegram bot api

Ai源码

v0.50.0
typebot.io

Ai源码

v3.1.2
python wechaty getting started

Ai源码

1.0.0
waymo open dataset

其他源码

December 2023 Update
termwind

其他类别

v2.3.0
wp functions

其他类别

1.0.0

相关资讯全部