Ein selbst gehosteter, Offline-ChatGPT-ähnlicher Chatbot, unterstützt von Llama 2. 100 % privat, ohne dass Daten Ihr Gerät verlassen.
Neu: Unterstützung für Code-Llama-Modelle und Nvidia-GPUs.
umbrel.com (wir stellen ein) »
Derzeit unterstützt LlamaGPT die folgenden Modelle. Die Unterstützung für die Ausführung benutzerdefinierter Modelle steht auf der Roadmap.
Modellname | Modellgröße | Downloadgröße des Modells | Speicher erforderlich |
---|---|---|---|
Nous Hermes Llama 2 7B Chat (GGML q4_0) | 7B | 3,79 GB | 6,29 GB |
Nous Hermes Llama 2 13B Chat (GGML q4_0) | 13B | 7,32 GB | 9,82 GB |
Nous Hermes Llama 2 70B Chat (GGML q4_0) | 70B | 38,87 GB | 41,37 GB |
Code Lama 7B Chat (GGUF Q4_K_M) | 7B | 4,24 GB | 6,74 GB |
Code Lama 13B Chat (GGUF Q4_K_M) | 13B | 8,06 GB | 10,56 GB |
Phind Code Lama 34B Chat (GGUF Q4_K_M) | 34B | 20,22 GB | 22,72 GB |
Das Ausführen von LlamaGPT auf einem umbrelOS-Heimserver ist nur einen Klick entfernt. Installieren Sie es einfach aus dem Umbrel App Store.
Stellen Sie sicher, dass Docker und Xcode installiert sind.
Klonen Sie dann dieses Repo und cd
hinein:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Führen Sie LlamaGPT mit dem folgenden Befehl aus:
./run-mac.sh --model 7b
Sie können auf LlamaGPT unter http://localhost:3000 zugreifen.
Um 13B- oder 70B-Chat-Modelle auszuführen, ersetzen Sie
7b
durch13b
bzw.70b
. Um die Code-Lama-Modelle 7B, 13B oder 34B auszuführen, ersetzen Sie7b
durchcode-7b
,code-13b
bzw.code-34b
.
Um LlamaGPT zu stoppen, drücken Sie Ctrl + C
im Terminal.
Sie können LlamaGPT auf jedem x86- oder arm64-System ausführen. Stellen Sie sicher, dass Docker installiert ist.
Klonen Sie dann dieses Repo und cd
hinein:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Führen Sie LlamaGPT mit dem folgenden Befehl aus:
./run.sh --model 7b
Oder wenn Sie eine Nvidia-GPU haben, können Sie LlamaGPT mit CUDA-Unterstützung ausführen, indem Sie das Flag --with-cuda
verwenden, wie zum Beispiel:
./run.sh --model 7b --with-cuda
Sie können auf LlamaGPT unter http://localhost:3000
zugreifen.
Um 13B- oder 70B-Chat-Modelle auszuführen, ersetzen Sie
7b
durch13b
bzw.70b
. Um die Modelle Code Llama 7B, 13B oder 34B auszuführen, ersetzen Sie7b
durchcode-7b
,code-13b
bzw.code-34b
.
Um LlamaGPT zu stoppen, drücken Sie Ctrl + C
im Terminal.
Hinweis: Bei der ersten Ausführung kann es eine Weile dauern, bis das Modell in das Verzeichnis
/models
heruntergeladen wird. Möglicherweise sehen Sie einige Minuten lang auch viele Ausgaben wie diese, was normal ist:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
Nachdem das Modell automatisch heruntergeladen und geladen wurde und der API-Server ausgeführt wird, sehen Sie eine Ausgabe wie:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
Sie können dann unter http://localhost:3000 auf LlamaGPT zugreifen.
Stellen Sie zunächst sicher, dass Sie über einen laufenden Kubernetes-Cluster verfügen und kubectl
für die Interaktion mit diesem konfiguriert ist.
Klonen Sie dann dieses Repo und cd
hinein.
Um die Bereitstellung auf Kubernetes durchzuführen, erstellen Sie zunächst einen Namespace:
kubectl create ns llama
Wenden Sie dann die Manifeste im Verzeichnis /deploy/kubernetes
mit an
kubectl apply -k deploy/kubernetes/. -n llama
Stellen Sie Ihren Dienst so zur Verfügung, wie Sie es normalerweise tun würden.
Dank llama-cpp-python ist unter http://localhost:3001
ein direkter Ersatz für die OpenAI-API verfügbar. Öffnen Sie http://localhost:3001/docs, um die API-Dokumentation anzuzeigen.
Wir haben LlamaGPT-Modelle auf der folgenden Hardware mit der Standard-Systemaufforderung und der Benutzeraufforderung getestet: „Wie expandiert das Universum?“ bei Temperatur 0, um deterministische Ergebnisse zu gewährleisten. Die Generationsgeschwindigkeit wird über die ersten 10 Generationen gemittelt.
Fühlen Sie sich frei, Ihre eigenen Benchmarks zu dieser Tabelle hinzuzufügen, indem Sie eine Pull-Anfrage öffnen.
Gerät | Generationsgeschwindigkeit |
---|---|
M1 Max MacBook Pro (64 GB RAM) | 54 Token/Sek |
GCP c2-standard-16 vCPU (64 GB RAM) | 16,7 Token/Sek |
Ryzen 5700G 4,4 GHz 4c (16 GB RAM) | 11,50 Token/Sek |
GCP c2-standard-4 vCPU (16 GB RAM) | 4,3 Token/Sek |
Umbrel Home (16 GB RAM) | 2,7 Token/Sek |
Raspberry Pi 4 (8 GB RAM) | 0,9 Token/Sek |
Gerät | Generationsgeschwindigkeit |
---|---|
M1 Max MacBook Pro (64 GB RAM) | 20 Token/Sek |
GCP c2-standard-16 vCPU (64 GB RAM) | 8,6 Token/Sek |
GCP c2-standard-4 vCPU (16 GB RAM) | 2,2 Token/Sek |
Umbrel Home (16 GB RAM) | 1,5 Token/Sek |
Gerät | Generationsgeschwindigkeit |
---|---|
M1 Max MacBook Pro (64 GB RAM) | 4,8 Token/Sek |
GCP e2-standard-16 vCPU (64 GB RAM) | 1,75 Token/Sek |
GCP c2-standard-16 vCPU (64 GB RAM) | 1,62 Token/Sek |
Gerät | Generationsgeschwindigkeit |
---|---|
M1 Max MacBook Pro (64 GB RAM) | 41 Token/Sek |
Gerät | Generationsgeschwindigkeit |
---|---|
M1 Max MacBook Pro (64 GB RAM) | 25 Token/Sek |
Gerät | Generationsgeschwindigkeit |
---|---|
M1 Max MacBook Pro (64 GB RAM) | 10,26 Token/Sek |
Wir möchten LlamaGPT um weitere Funktionen erweitern. Die Roadmap können Sie hier einsehen. Die höchsten Prioritäten sind:
Wenn Sie als Entwickler bei einem dieser Probleme helfen möchten, eröffnen Sie bitte ein Problem, um zu besprechen, wie Sie die Herausforderung am besten angehen können. Wenn Sie helfen möchten, aber nicht wissen, wo Sie anfangen sollen, sehen Sie sich diese Ausgaben an, die speziell als freundlich für neue Mitwirkende gekennzeichnet wurden.
Ein großes Dankeschön an die folgenden Entwickler und Teams, die LlamaGPT ermöglicht haben:
umbrel.com