qwen2 in a lambda - qwen2 in a lambda

qwen2 in a lambda

Kode Sumber AI

1.0.0

Unduh

Qwen di Lambda

Diperbarui pada 11/09/2024

(Menandai tanggal karena seberapa cepat LLM API di Python bergerak dan mungkin menyebabkan perubahan besar pada saat orang lain membaca ini!)

Pendahuluan:

Ini adalah penelitian kecil tentang bagaimana kita dapat memasukkan file model Qwen GGUF ke AWS Lambda menggunakan Docker dan SAM CLI
Diadaptasi dari https://makit.net/blog/llm-in-a-lambda-function/
- Mulai September '24, beberapa paket OS yang diperlukan tidak disertakan dalam panduan di atas dan selanjutnya di Dockerfile karena kemungkinan llama-cpp-python @ 0.2.90 tidak menyertakan paket OS yang diperlukan (?)
- Siapa tahu ada sesuatu yang baru dan terobosan yang akan muncul di masa depan :shrugs:

Motivasi:

Saya ingin mengetahui apakah saya dapat mengurangi pengeluaran AWS saya dengan hanya memanfaatkan kemampuan Lambda dan bukan Lambda + Bedrock karena kedua layanan tersebut akan menimbulkan lebih banyak biaya dalam jangka panjang.
Idenya adalah untuk menyesuaikan model bahasa kecil yang relatif tidak membutuhkan banyak sumber daya dan, mudah-mudahan, menerima latensi subdetik hingga detik pada konfigurasi memori 128 - 256 mb
Saya juga ingin menggunakan model GGUF untuk menggunakan tingkat kuantisasi yang berbeda untuk mengetahui kinerja/ukuran file mana yang terbaik untuk dimuat ke dalam memori
- Eksperimen saya mengarahkan saya menggunakan Qwen2 1.5b Q5_K_M karena memiliki "kinerja" dan "latensi" terbaik secara lokal untuk menerima prompt dan mengeluarkan struktur JSON menggunakan llama-cpp

Prasyarat:

Buruh pelabuhan
CLI AWS SAM
AWS CLI
Python 3.11
izin ECR
Izin Lambda
Unduh qwen2-1_5b-instruct-q5_k_m.gguf ke qwen_fuction/function/
- Atau unduh model .gguf lain yang Anda inginkan dan ubah jalur model Anda di app.y / LOCAL_PATH

Panduan Pengaturan:

Instal paket pip di bawah qwen_function/function/requirements.txt (sebaiknya di venv/conda env)
Jalankan sam build / sam validate
Jalankan sam local start-api untuk menguji secara lokal
Jalankan curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate untuk meminta LLM
- Atau gunakan klien API pilihan Anda
Jalankan sam deploy --guided untuk menerapkan ke AWS
Ini akan menyebarkan tumpukan cloudformation yang terdiri dari gateway API dan fungsi Lambda

Metrik

Localhost - Macbook M3 Pro 32 GB

teks alternatif

AWS
- Konfigurasi awal - 128MB, batas waktu 30 detik
  - Waktu Lambda habis! Awal yang dingin adalah pengaturan waktu lambda
- Konfigurasi #1 yang disesuaikan - 512MB, batas waktu 30 detik
  - Waktu Lambda habis! Awal yang dingin adalah pengaturan waktu lambda
- Konfigurasi #2 yang disesuaikan - 512MB, batas waktu 30 detik
  - Waktu Lambda habis! Awal yang dingin adalah pengaturan waktu lambda

teks alternatif

Konfigurasi #3 yang disesuaikan - 3008mb, batas waktu 30 detik - start dingin

teks alternatif

Konfigurasi #3 yang disesuaikan - 3008mb, batas waktu 30 detik - awal yang hangat

teks alternatif

Pengamatan

Mengacu kembali pada struktur harga Lambda,
- Harga
- 1536 MB / 1,465 dtk / $0,024638 lebih dari 1000 pemanggilan Lambda
  - Qwen2 1.5b membuat saya meningkatkan memori hingga 3008mb agar tidak kehabisan waktu dan menerima respons latensi 4 - 11 detik!
- Claude 3 Haiku / $0,00025 / $0,00125 lebih dari 1000 token masukan & 1000 token keluaran / Asia - Tokyo
Mungkin lebih murah jika hanya menggunakan LLM yang dihosting menggunakan AWS Bedrock, dll. di cloud karena struktur harga untuk Lambda w/ Qwen tidak terlihat lebih kompetitif dibandingkan dengan Claude 3 Haiku
Selain itu, batas waktu gateway API tidak mudah dikonfigurasi setelah batas waktu 30 detik, bergantung pada kasus penggunaan Anda, ini mungkin tidak terlalu ideal
Hasil via lokal tergantung spek mesin anda!! dan mungkin sangat menyimpangkan persepsi, ekspektasi, dan kenyataan Anda
Bergantung pada kasus penggunaan Anda juga, latensi per pemanggilan dan respons lambda mungkin menimbulkan pengalaman pengguna yang buruk

Kesimpulan

Secara keseluruhan, menurut saya ini adalah eksperimen kecil yang menyenangkan meskipun tidak sesuai dengan persyaratan anggaran & latensi melalui Qwen 1.5b untuk proyek sampingan saya. Sekali lagi terima kasih kepada @makit untuk panduannya!

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-29
ukuran 121.15KB
Berasal dari Github

Aplikasi Terkait

Qwen2 VL

2024-11-07
IDLE Mengirimkan Perahu dalam versi seluler Botol

2024-02-09
Petualangan SpongeBob Dalam Selai versi Cina

2023-07-24
Agen A: Teka-teki Tersamar

2022-08-28
Temukan jalan keluar dalam kesesatan

2022-08-11
Singkatnya PHP

2009-05-24

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua