qwen2 in a lambdaダウンロード - qwen2 in a lambdaソースコードのダウンロード

ダウンロード

ラムダのクウェン

2024 年 11 月 9 日に更新

(日付をマークしたのは、Python の LLM API が非常に高速に動作するためであり、他の誰かがこれを読む頃には重大な変更が導入される可能性があります。)

これは、Docker と SAM CLI を使用して Qwen GGUF モデルファイルを AWS Lambda に配置する方法に関する小規模な研究です。
https://makit.net/blog/llm-in-a-lambda-function/ から引用
- 2024 年 9 月の時点では、必要な OS パッケージの一部が上記のガイドに含まれておらず、その後 Dockerfile にも含まれていません。これは、llama-cpp-python @ 0.2.90 に必要な OS パッケージ (?) が含まれていない可能性があるためです。
- 将来、新しく画期的なものが登場するかどうかは誰にも分かりません :肩をすくめ:

Lambda + Bedrock ではなく、Lambda の機能のみを活用することで、AWS の支出を削減できるかどうかを知りたかったのです。どちらのサービスも長期的にはより多くのコストが発生するためです。
このアイデアは、比較的リソースを多く消費しない小規模な言語モデルを適合させ、できれば 128 ～ 256 MB のメモリ構成で 1 秒未満から 2 秒のレイテンシーを実現するというものでした。
GGUF モデルも使用して、さまざまなレベルの量子化を使用して、メモリにロードされる最適なパフォーマンス/ファイルサイズを調べたいと思いました。
- 私の実験の結果、ローカルでプロンプトを受信し、llama-cpp を使用して JSON 構造を吐き出すのに最高の「パフォーマンス」と「レイテンシ」を備えた Qwen2 1.5b Q5_K_M を使用するようになりました。

ドッカー
AWS SAM CLI
AWS CLI
Python 3.11
ECR権限
ラムダ権限
qwen2-1_5b-instruct-q5_k_m.ggufをqwen_fuction/function/にダウンロードします。
- または、他の必要な .gguf モデルをダウンロードし、 app.y / LOCAL_PATHのモデルパスを変更します。

pip パッケージをqwen_function/function/requirements.txtにインストールします (できれば venv/conda env に)
sam build / sam validate実行する
sam local start-api実行してローカルでテストします
curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate実行して、LLM にプロンプトを表示します
- または、好みの API クライアントを使用します
sam deploy --guided
これにより、API ゲートウェイと Lambda 関数で構成されるクラウド形成スタックがデプロイされます。

代替テキスト

代替テキスト

代替テキスト

代替テキスト

Lambda の料金体系に戻ると、
- 価格設定
- 1000 回の Lambda 呼び出し以上で 1536 MB / 1.465 秒 / 0.024638 ドル
  - Qwen2 1.5b では、タイムアウトしないようにメモリを 3008 MB まで増やす必要があり、4 ～ 11 秒の遅延応答が得られました。
- Claude 3 Haiku / $0.00025 / $0.00125 1000 入力トークン & 1000 出力トークン以上 / アジア - 東京
Qwen を使用した Lambda の料金体系は Claude 3 Haiku と比べて競争力が低いように見えるため、クラウド上で AWS Bedrock などを使用してホスト型 LLM を使用する方が安価になる可能性があります。
さらに、API ゲートウェイのタイムアウトは 30 秒のタイムアウトを超えて簡単に構成できません。ユースケースによっては、これはあまり理想的ではない可能性があります。
ローカル経由の結果はマシンの仕様に依存します。あなたの認識、期待と現実を大きく歪める可能性があります
ユースケースによっては、ラムダの呼び出しと応答ごとのレイテンシにより、ユーザーエクスペリエンスが低下する可能性があります。