一個自架、離線、類似 ChatGPT 的聊天機器人,由 Llama 2 提供支援。
新增內容:支援 Code Llama 模型和 Nvidia GPU。
umbrel.com(我們正在招募)»
目前,LlamaGPT 支援以下型號。對運行自訂模型的支援已列入路線圖。
型號名稱 | 型號尺寸 | 模型下載大小 | 需要記憶體 |
---|---|---|---|
Nous Hermes Llama 2 7B 聊天 (GGML q4_0) | 7B | 3.79GB | 6.29GB |
Nous Hermes Llama 2 13B 聊天 (GGML q4_0) | 13B | 7.32GB | 9.82GB |
Nous Hermes Llama 2 70B 聊天 (GGML q4_0) | 70B | 38.87GB | 41.37GB |
代碼 Llama 7B 聊天 (GGUF Q4_K_M) | 7B | 4.24GB | 6.74GB |
代碼 Llama 13B 聊天 (GGUF Q4_K_M) | 13B | 8.06GB | 10.56GB |
Phind 代碼 Llama 34B 聊天 (GGUF Q4_K_M) | 34B | 20.22GB | 22.72GB |
只需單擊即可在 umbrelOS 家庭伺服器上運行 LlamaGPT。只需從 Umbrel App Store 安裝即可。
確保您已安裝 Docker 和 Xcode。
然後,克隆此存儲庫並cd
到其中:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
使用以下命令運行 LlamaGPT:
./run-mac.sh --model 7b
您可以透過 http://localhost:3000 存取 LlamaGPT。
若要執行 13B 或 70B 聊天模型,請將
7b
分別替換為13b
或70b
。若要執行 7B、13B 或 34B Code Llama 模型,請將7b
分別替換為code-7b
、code-13b
或code-34b
。
若要停止 LlamaGPT,請在終端機中執行Ctrl + C
您可以在任何 x86 或 arm64 系統上執行 LlamaGPT。確保您已安裝 Docker。
然後,克隆此存儲庫並cd
到其中:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
使用以下命令運行 LlamaGPT:
./run.sh --model 7b
或者,如果您有 Nvidia GPU,則可以使用--with-cuda
標誌來執行具有 CUDA 支援的 LlamaGPT,例如:
./run.sh --model 7b --with-cuda
您可以透過http://localhost:3000
存取 LlamaGPT。
若要執行 13B 或 70B 聊天模型,請將
7b
分別替換為13b
或70b
。若要執行 Code Llama 7B、13B 或 34B 模型,請將7b
分別替換為code-7b
、code-13b
或code-34b
。
若要停止 LlamaGPT,請在終端機中執行Ctrl + C
注意:首次運行時,模型可能需要一段時間才能下載到
/models
目錄。您可能還會在幾分鐘內看到大量這樣的輸出,這是正常的:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
自動下載並載入模型並且 API 伺服器運行後,您將看到以下輸出:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
然後您可以透過 http://localhost:3000 造訪 LlamaGPT。
首先,確保您有一個正在運行的 Kubernetes 集群,並且kubectl
配置為與其互動。
然後,克隆此存儲庫並將cd
放入其中。
要部署到 Kubernetes,首先建立一個命名空間:
kubectl create ns llama
然後套用/deploy/kubernetes
目錄下的清單
kubectl apply -k deploy/kubernetes/. -n llama
公開您的服務,但您通常會這樣做。
感謝 llama-cpp-python,可以在http://localhost:3001
上找到 OpenAI API 的直接替代方案。開啟 http://localhost:3001/docs 查看 API 文件。
我們在以下硬體上測試了 LlamaGPT 模型,並使用預設系統提示和使用者提示:“宇宙如何膨脹?”在溫度 0 時保證確定性結果。生成速度是前 10 代的平均值。
請隨意透過開啟拉取請求將您自己的基準新增至此表中。
裝置 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 記憶體) | 54 個令牌/秒 |
GCP c2-standard-16 vCPU(64 GB RAM) | 16.7 個令牌/秒 |
銳龍 5700G 4.4GHz 4c(16 GB RAM) | 11.50 個令牌/秒 |
GCP c2-standard-4 vCPU (16 GB RAM) | 4.3 令牌/秒 |
雨傘首頁(16GB RAM) | 2.7 令牌/秒 |
樹莓派 4(8GB 記憶體) | 0.9 個令牌/秒 |
裝置 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 記憶體) | 20 個令牌/秒 |
GCP c2-standard-16 vCPU(64 GB RAM) | 8.6 個令牌/秒 |
GCP c2-standard-4 vCPU (16 GB RAM) | 2.2 令牌/秒 |
雨傘首頁(16GB RAM) | 1.5 個令牌/秒 |
裝置 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 記憶體) | 4.8 個令牌/秒 |
GCP e2-standard-16 vCPU(64 GB RAM) | 1.75 個令牌/秒 |
GCP c2-standard-16 vCPU(64 GB RAM) | 1.62 個令牌/秒 |
裝置 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 記憶體) | 41 個令牌/秒 |
裝置 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 記憶體) | 25 個令牌/秒 |
裝置 | 生成速度 |
---|---|
M1 Max MacBook Pro(64GB 記憶體) | 10.26 個令牌/秒 |
我們希望為 LlamaGPT 添加更多功能。您可以在此處查看路線圖。最高優先級是:
如果您是開發人員,想要協助解決這些問題,請開啟一個問題來討論應對挑戰的最佳方法。如果您正在尋求幫助但不確定從哪裡開始,請查看這些已明確標記為對新貢獻者友善的問題。
非常感謝以下開發人員和團隊讓 LlamaGPT 成為可能:
umbrel.com