qwen2 in a lambda - qwen2 in a lambda

qwen2 in a lambda

Código-Fonte de IA

1.0.0

Baixar

Qwen em um Lambda

Atualizado em 09/11/2024

(Marcar a data devido à rapidez com que as APIs LLM em Python se movem e pode introduzir alterações significativas no momento em que alguém ler isto!)

Introdução:

Esta é uma pequena pesquisa sobre como podemos colocar arquivos de modelo Qwen GGUF no AWS Lambda usando Docker e SAM CLI
Adaptado de https://makit.net/blog/llm-in-a-lambda-function/
- A partir de 24 de setembro, alguns pacotes de sistema operacional necessários não estão incluídos no guia acima e, posteriormente, no Dockerfile, pois potencialmente o llama-cpp-python @ 0.2.90 não inclui os pacotes de sistema operacional necessários (?)
- Quem sabe se há algo novo e inovador que aparecerá no futuro :encolhe os ombros:

Motivação:

Eu queria descobrir se posso reduzir meus gastos com AWS aproveitando apenas os recursos do Lambda e não do Lambda + Bedrock, pois ambos os serviços incorreriam em mais custos no longo prazo.
A ideia era ajustar um modelo de linguagem pequeno que não consumisse tantos recursos relativamente falando e, esperançosamente, receber latência de subsegundo a segundo em uma configuração de memória de 128 a 256 MB
Eu queria usar também modelos GGUF para usar diferentes níveis de quantização para descobrir qual é o melhor desempenho/tamanho de arquivo a ser carregado na memória
- Minha experimentação me levou a usar Qwen2 1.5b Q5_K_M, pois tinha o melhor "desempenho" e "latência" localmente para receber prompt e cuspir a estrutura JSON usando llama-cpp

Pré-requisitos:

Docker
CLI do AWS SAM
AWS CLI
Pitão 3.11
Permissões ECR
Permissões Lambda
Baixe qwen2-1_5b-instruct-q5_k_m.gguf em qwen_fuction/function/
- Ou baixe qualquer outro modelo .gguf que desejar e altere o caminho do modelo em app.y / LOCAL_PATH

Guia de configuração:

Instale pacotes pip em qwen_function/function/requirements.txt (de preferência em um ambiente venv/conda)
Execute sam build / sam validate
Execute sam local start-api para testar localmente
Execute curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate para solicitar o LLM
- Ou use seus clientes API preferidos
Execute sam deploy --guided para implantar na AWS
Isso implantará uma pilha de cloudformation que consiste em um gateway de API e uma função Lambda

Métricas

Host local - Macbook M3 Pro 32 GB

texto alternativo

AWS
- Configuração inicial - 128 MB, tempo limite de 30 segundos
  - Lambda expirou! A partida a frio estava expirando o lambda
- Configuração ajustada nº 1 - 512 MB, tempo limite de 30 segundos
  - Lambda expirou! A partida a frio estava expirando o lambda
- Configuração ajustada nº 2 - 512 MB, tempo limite de 30 segundos
  - Lambda expirou! A partida a frio estava expirando o lambda

texto alternativo

Configuração ajustada nº 3 - 3008 MB, tempo limite de 30 segundos - inicialização a frio

texto alternativo

Configuração ajustada nº 3 - 3008 MB, tempo limite de 30 segundos - inicialização a quente

texto alternativo

Observação

Referindo-nos à estrutura de preços do Lambda,
- Preços
- 1.536 MB / 1.465 s / US$ 0,024638 acima de 1.000 invocações Lambda
  - Qwen2 1.5b me fez aumentar a memória para 3008 MB apenas para não atingir o tempo limite e receber uma resposta de latência de 4 a 11 segundos!
- Claude 3 Haiku / US$ 0,00025 / US$ 0,00125 acima de 1.000 tokens de entrada e 1.000 tokens de saída / Ásia - Tóquio
Pode ser mais barato usar apenas um LLM hospedado usando AWS Bedrock, etc. na nuvem, pois a estrutura de preços do Lambda com Qwen não parece mais competitiva em comparação com Claude 3 Haiku
Além disso, o tempo limite do gateway da API não é facilmente configurável além do tempo limite de 30 segundos, dependendo do seu caso de uso, isso pode não ser muito ideal
Os resultados via local dependem das especificações da sua máquina!! e pode distorcer fortemente sua percepção, expectativa versus realidade
Dependendo também do seu caso de uso, a latência por invocação e respostas lambda pode gerar experiências ruins para o usuário

Conclusão

Resumindo, acho que foi um pequeno experimento divertido, embora não tenha atendido aos requisitos de orçamento e latência do Qwen 1.5b para meu projeto paralelo. Obrigado a @makit novamente pelo guia!

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-29
tamanho 121.15KB
Vindo de Github

Aplicativos Relacionados

Qwen2 VL

2024-11-07
IDLE envia barcos em garrafas versão móvel

2024-02-09
Bob Esponja Adventures In A Jam versão chinesa

2023-07-24
Agente A: um quebra-cabeça disfarçado

2022-08-28
Encontre uma saída nos perdidos

2022-08-11
PHP em poucas palavras

2009-05-24

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos