一个自托管、离线、类似 ChatGPT 的聊天机器人,由 Llama 2 提供支持。100% 私密,不会有任何数据离开您的设备。
新增内容:支持 Code Llama 模型和 Nvidia GPU。
umbrel.com(我们正在招聘)»
目前,LlamaGPT 支持以下型号。对运行自定义模型的支持已列入路线图。
型号名称 | 型号尺寸 | 模型下载大小 | 需要内存 |
---|---|---|---|
Nous Hermes Llama 2 7B 聊天 (GGML q4_0) | 7B | 3.79GB | 6.29GB |
Nous Hermes Llama 2 13B 聊天 (GGML q4_0) | 13B | 7.32GB | 9.82GB |
Nous Hermes Llama 2 70B 聊天 (GGML q4_0) | 70B | 38.87GB | 41.37GB |
代码 Llama 7B 聊天 (GGUF Q4_K_M) | 7B | 4.24GB | 6.74GB |
代码 Llama 13B 聊天 (GGUF Q4_K_M) | 13B | 8.06GB | 10.56GB |
Phind 代码 Llama 34B 聊天 (GGUF Q4_K_M) | 34B | 20.22GB | 22.72GB |
只需单击一下即可在 umbrelOS 家庭服务器上运行 LlamaGPT。只需从 Umbrel App Store 安装即可。
确保您已安装 Docker 和 Xcode。
然后,克隆此存储库并cd
到其中:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
使用以下命令运行 LlamaGPT:
./run-mac.sh --model 7b
您可以通过 http://localhost:3000 访问 LlamaGPT。
要运行 13B 或 70B 聊天模型,请将
7b
分别替换为13b
或70b
。要运行 7B、13B 或 34B Code Llama 模型,请将7b
分别替换为code-7b
、code-13b
或code-34b
。
要停止 LlamaGPT,请在终端中执行Ctrl + C
您可以在任何 x86 或 arm64 系统上运行 LlamaGPT。确保您已安装 Docker。
然后,克隆此存储库并cd
到其中:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
使用以下命令运行 LlamaGPT:
./run.sh --model 7b
或者,如果您有 Nvidia GPU,则可以使用--with-cuda
标志运行具有 CUDA 支持的 LlamaGPT,例如:
./run.sh --model 7b --with-cuda
您可以通过http://localhost:3000
访问 LlamaGPT。
要运行 13B 或 70B 聊天模型,请将
7b
分别替换为13b
或70b
。要运行 Code Llama 7B、13B 或 34B 模型,请将7b
分别替换为code-7b
、code-13b
或code-34b
。
要停止 LlamaGPT,请在终端中执行Ctrl + C
注意:首次运行时,模型可能需要一段时间才能下载到
/models
目录。您可能还会在几分钟内看到大量这样的输出,这是正常的:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
自动下载并加载模型并且 API 服务器运行后,您将看到如下输出:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
然后您可以通过 http://localhost:3000 访问 LlamaGPT。
首先,确保您有一个正在运行的 Kubernetes 集群,并且kubectl
配置为与其交互。
然后,克隆此存储库并将cd
放入其中。
要部署到 Kubernetes,首先创建一个命名空间:
kubectl create ns llama
然后应用/deploy/kubernetes
目录下的清单
kubectl apply -k deploy/kubernetes/. -n llama
公开您的服务,但您通常会这样做。
感谢 llama-cpp-python,可以在http://localhost:3001
上找到 OpenAI API 的直接替代品。打开 http://localhost:3001/docs 查看 API 文档。
我们在以下硬件上测试了 LlamaGPT 模型,并使用默认系统提示和用户提示:“宇宙如何膨胀?”在温度 0 时保证确定性结果。生成速度是前 10 代的平均值。
请随意通过打开拉取请求将您自己的基准添加到此表中。
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 内存) | 54 个令牌/秒 |
GCP c2-standard-16 vCPU(64 GB RAM) | 16.7 个令牌/秒 |
锐龙 5700G 4.4GHz 4c(16 GB RAM) | 11.50 个令牌/秒 |
GCP c2-standard-4 vCPU (16 GB RAM) | 4.3 令牌/秒 |
雨伞主页(16GB RAM) | 2.7 令牌/秒 |
树莓派 4(8GB 内存) | 0.9 个令牌/秒 |
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 内存) | 20 个令牌/秒 |
GCP c2-standard-16 vCPU(64 GB RAM) | 8.6 个令牌/秒 |
GCP c2-standard-4 vCPU (16 GB RAM) | 2.2 令牌/秒 |
雨伞主页(16GB RAM) | 1.5 个令牌/秒 |
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 内存) | 4.8 个令牌/秒 |
GCP e2-standard-16 vCPU(64 GB RAM) | 1.75 个令牌/秒 |
GCP c2-standard-16 vCPU(64 GB RAM) | 1.62 个令牌/秒 |
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 内存) | 41 个令牌/秒 |
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 内存) | 25 个令牌/秒 |
设备 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 内存) | 10.26 个令牌/秒 |
我们希望为 LlamaGPT 添加更多功能。您可以在此处查看路线图。最高优先级是:
如果您是一名开发人员,想要帮助解决这些问题,请打开一个问题来讨论应对挑战的最佳方法。如果您正在寻求帮助但不确定从哪里开始,请查看这些已明确标记为对新贡献者友好的问题。
非常感谢以下开发人员和团队使 LlamaGPT 成为可能:
umbrel.com