Автономный автономный чат-бот, похожий на ChatGPT, работающий на базе Llama 2. 100% конфиденциальность, данные на вашем устройстве не покидают.
Новое: поддержка моделей Code Llama и графических процессоров Nvidia.
umbrel.com (мы набираем сотрудников) »
В настоящее время LlamaGPT поддерживает следующие модели. В планах — поддержка запуска пользовательских моделей.
Название модели | Размер модели | Размер загрузки модели | Требуется память |
---|---|---|---|
Nous Hermes Llama 2 7B Чат (GGML q4_0) | 7Б | 3,79 ГБ | 6,29 ГБ |
Nous Hermes Llama 2 13B Чат (GGML q4_0) | 13Б | 7,32 ГБ | 9,82 ГБ |
Nous Hermes Llama 2 70B Чат (GGML q4_0) | 70Б | 38,87 ГБ | 41,37 ГБ |
Код Чат Ламы 7B (GGUF Q4_K_M) | 7Б | 4,24 ГБ | 6,74 ГБ |
Код Ламы 13B Чат (GGUF Q4_K_M) | 13Б | 8,06 ГБ | 10,56 ГБ |
Код Phind: Чат Ламы 34B (GGUF Q4_K_M) | 34Б | 20,22 ГБ | 22,72 ГБ |
Запустить LlamaGPT на домашнем сервере umbrelOS можно одним щелчком мыши. Просто установите его из магазина приложений Umbrel.
Убедитесь, что у вас установлены Docker и Xcode.
Затем клонируйте этот репозиторий и cd
в него:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Запустите LlamaGPT с помощью следующей команды:
./run-mac.sh --model 7b
Вы можете получить доступ к LlamaGPT по адресу http://localhost:3000.
Чтобы запустить модели чата 13B или 70B, замените
7b
на13b
или70b
соответственно. Чтобы запустить модели Code Llama 7B, 13B или 34B, замените7b
наcode-7b
,code-13b
илиcode-34b
соответственно.
Чтобы остановить LlamaGPT, нажмите Ctrl + C
в терминале.
Вы можете запустить LlamaGPT в любой системе x86 или Arm64. Убедитесь, что у вас установлен Docker.
Затем клонируйте этот репозиторий и cd
в него:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Запустите LlamaGPT с помощью следующей команды:
./run.sh --model 7b
Или, если у вас есть графический процессор Nvidia, вы можете запустить LlamaGPT с поддержкой CUDA, используя флаг --with-cuda
, например:
./run.sh --model 7b --with-cuda
Вы можете получить доступ к LlamaGPT по адресу http://localhost:3000
.
Чтобы запустить модели чата 13B или 70B, замените
7b
на13b
или70b
соответственно. Чтобы запустить модели Code Llama 7B, 13B или 34B, замените7b
наcode-7b
,code-13b
илиcode-34b
соответственно.
Чтобы остановить LlamaGPT, нажмите Ctrl + C
в терминале.
Примечание. При первом запуске загрузка модели в каталог
/models
может занять некоторое время. Вы также можете увидеть множество подобных результатов в течение нескольких минут, что нормально:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
После автоматической загрузки и загрузки модели и запуска сервера API вы увидите следующий результат:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
Затем вы сможете получить доступ к LlamaGPT по адресу http://localhost:3000.
Во-первых, убедитесь, что у вас есть работающий кластер Kubernetes и kubectl
настроен для взаимодействия с ним.
Затем клонируйте этот репозиторий и cd
в него.
Для развертывания в Kubernetes сначала создайте пространство имен:
kubectl create ns llama
Затем примените манифесты в каталоге /deploy/kubernetes
с помощью
kubectl apply -k deploy/kubernetes/. -n llama
Раскройте свой сервис так, как вы обычно это делаете.
Благодаря llama-cpp-python замена OpenAI API доступна по адресу http://localhost:3001
. Откройте http://localhost:3001/docs, чтобы просмотреть документацию по API.
Мы протестировали модели LlamaGPT на следующем оборудовании с системным приглашением по умолчанию и приглашением пользователя: «Как расширяется Вселенная?» при температуре 0, чтобы гарантировать детерминированные результаты. Скорость генерации усреднена по первым 10 поколениям.
Не стесняйтесь добавлять в эту таблицу свои собственные тесты, открыв запрос на включение.
Устройство | Скорость генерации |
---|---|
M1 Max MacBook Pro (64 ГБ ОЗУ) | 54 токена/сек. |
GCP c2-standard-16 виртуальных ЦП (64 ГБ ОЗУ) | 16,7 токенов/сек |
Ryzen 5700G 4,4 ГГц 4c (16 ГБ ОЗУ) | 11,50 токенов/сек. |
Виртуальный ЦП GCP c2-standard-4 (16 ГБ ОЗУ) | 4,3 токена/сек. |
Зонтик для дома (16 ГБ ОЗУ) | 2,7 токена/сек. |
Малиновый Pi 4 (8 ГБ ОЗУ) | 0,9 токена/сек. |
Устройство | Скорость генерации |
---|---|
M1 Max MacBook Pro (64 ГБ ОЗУ) | 20 токенов/сек |
GCP c2-standard-16 виртуальных ЦП (64 ГБ ОЗУ) | 8,6 токенов/сек |
Виртуальный ЦП GCP c2-standard-4 (16 ГБ ОЗУ) | 2,2 токена/сек. |
Зонтик для дома (16 ГБ ОЗУ) | 1,5 токена/сек. |
Устройство | Скорость генерации |
---|---|
M1 Max MacBook Pro (64 ГБ ОЗУ) | 4,8 токенов/сек |
Виртуальный процессор GCP e2-standard-16 (64 ГБ ОЗУ) | 1,75 токенов/сек. |
GCP c2-standard-16 виртуальных ЦП (64 ГБ ОЗУ) | 1,62 токена/сек. |
Устройство | Скорость генерации |
---|---|
M1 Max MacBook Pro (64 ГБ ОЗУ) | 41 токен/сек |
Устройство | Скорость генерации |
---|---|
M1 Max MacBook Pro (64 ГБ ОЗУ) | 25 токенов/сек |
Устройство | Скорость генерации |
---|---|
M1 Max MacBook Pro (64 ГБ ОЗУ) | 10,26 токенов/сек |
Мы планируем добавить в LlamaGPT больше функций. Вы можете увидеть дорожную карту здесь. Наивысшими приоритетами являются:
Если вы разработчик и хотели бы помочь с чем-либо из этого, откройте проблему, чтобы обсудить лучший способ решения этой проблемы. Если вы хотите помочь, но не знаете, с чего начать, ознакомьтесь с этими вопросами, которые специально помечены как дружественные к новым участникам.
Огромное спасибо следующим разработчикам и командам за то, что сделали LlamaGPT возможным:
umbrel.com