qwen2 in a lambda Скачать - qwen2 in a lambda скачать исходный код

qwen2 in a lambda

AI Исходный код

1.0.0

Скачать

Квен в лямбде

Обновлено 09.11.2024

(Отмечаем дату из-за того, насколько быстро развиваются API-интерфейсы LLM в Python и могут внести критические изменения к тому времени, когда кто-нибудь еще это прочитает!)

Введение:

Это небольшое исследование того, как мы можем поместить файлы модели Qwen GGUF в AWS Lambda с помощью Docker и SAM CLI.
Адаптировано из https://makit.net/blog/llm-in-a-lambda-function/.
- По состоянию на 24 сентября некоторые необходимые пакеты ОС не включены в приведенное выше руководство, а затем и в файл Dockerfile, поскольку потенциально llama-cpp-python @ 0.2.90 не включает необходимые пакеты ОС (?).
- Кто знает, появится ли что-нибудь новое и ломаное в будущем :shrugs:

Мотивация:

Я хотел выяснить, смогу ли я сократить свои расходы на AWS, используя только возможности Lambda, а не Lambda + Bedrock, поскольку в долгосрочной перспективе оба сервиса повлекут за собой больше затрат.
Идея заключалась в том, чтобы подогнать небольшую языковую модель, которая не была бы такой ресурсоемкой относительно, и, как мы надеемся, получить задержку от доли секунды до секунды в конфигурации памяти 128–256 МБ.
Я хотел также использовать модели GGUF, чтобы использовать разные уровни квантования, чтобы выяснить, какая производительность/размер файла является наилучшей для загрузки в память.
- Мои эксперименты привели к тому, что я использовал Qwen2 1.5b Q5_K_M, поскольку он имел лучшую «производительность» и «задержку» локально для получения подсказки и выдачи структуры JSON с использованием llama-cpp.

Предпосылки:

Докер
Интерфейс командной строки AWS SAM
Интерфейс командной строки AWS
Питон 3.11
разрешения ECR
Лямбда-разрешения
Загрузите qwen2-1_5b-instruct-q5_k_m.gguf в qwen_fuction/function/
- Или загрузите любые другие модели .gguf, которые вам нужны, и измените путь к модели в app.y / LOCAL_PATH

Руководство по установке:

Установите пакеты pip в qwen_function/function/requirements.txt (желательно в среде venv/conda)
Запустите sam build / sam validate
Запустите sam local start-api для локального тестирования.
Запустите curl --header "Content-Type: application/json" --request POST --data '{"prompt":"hello"}' http://localhost:3000/generate , чтобы запросить LLM.
- Или используйте предпочитаемые вами клиенты API
Запустите sam deploy --guided по развертыванию на AWS.
Это приведет к развертыванию стека Cloudformation, состоящего из шлюза API и функции Lambda.

Метрики

Локальный хост — Macbook M3 Pro 32 ГБ

альтернативный текст

АВС
- Начальная конфигурация - 128 МБ, таймаут 30 с.
  - Время ожидания лямбды истекло! Холодный старт приводил к отключению лямбды
- Скорректированная конфигурация №1 — 512 МБ, таймаут 30 секунд.
  - Время ожидания лямбды истекло! Холодный старт приводил к отключению лямбды
- Скорректированная конфигурация №2 - 512 МБ, таймаут 30 с.
  - Время ожидания лямбды истекло! Холодный старт приводил к отключению лямбды

альтернативный текст

Скорректированная конфигурация №3 — 3008 МБ, тайм-аут 30 с — холодный старт

альтернативный текст

Скорректированная конфигурация №3 — 3008 МБ, тайм-аут 30 с — теплый старт

альтернативный текст

Наблюдение

Возвращаясь к структуре ценообразования Lambda,
- Цены
- 1536 МБ / 1,465 с / 0,024638 долларов США за 1000 вызовов Lambda
  - Qwen2 1.5b заставил меня увеличить память до 3008 МБ, просто чтобы не истечь тайм-аутом и получить ответ с задержкой 4–11 секунд!
- Клод 3 Haiku / 0,00025 доллара США / 0,00125 доллара США, более 1000 входных токенов и 1000 выходных токенов / Азия — Токио
Возможно, дешевле будет просто использовать размещенный LLM с использованием AWS Bedrock и т. д. в облаке, поскольку структура цен на Lambda с Qwen не выглядит более конкурентоспособной по сравнению с Claude 3 Haiku.
Кроме того, тайм-аут шлюза API нелегко настроить за пределами тайм-аута 30 с, в зависимости от вашего варианта использования это может быть не очень идеально.
Результаты через локальную систему зависят от характеристик вашей машины! и может сильно исказить ваше восприятие, ожидание и реальность
В зависимости от вашего варианта использования задержка на вызов лямбда-выражения и ответы могут привести к ухудшению пользовательского опыта.

Заключение

В целом, я думаю, что это был забавный небольшой эксперимент, хотя он не совсем соответствовал требованиям по бюджету и задержке Qwen 1.5b для моего побочного проекта. Еще раз спасибо @makit за руководство!

Расширять

Дополнительная информация