Un chatbot auto-hébergé, hors ligne, de type ChatGPT, alimenté par Llama 2. 100 % privé, sans qu'aucune donnée ne quitte votre appareil.
Nouveau : prise en charge des modèles Code Llama et des GPU Nvidia.
umbrel.com (nous recrutons) »
Actuellement, LlamaGPT prend en charge les modèles suivants. La prise en charge de l’exécution de modèles personnalisés figure sur la feuille de route.
Nom du modèle | Taille du modèle | Taille de téléchargement du modèle | Mémoire requise |
---|---|---|---|
Nous Hermes Llama 2 7B Chat (GGML q4_0) | 7B | 3,79 Go | 6,29 Go |
Nous Hermes Llama 2 13B Chat (GGML q4_0) | 13B | 7,32 Go | 9,82 Go |
Nous Hermes Llama 2 70B Chat (GGML q4_0) | 70B | 38,87 Go | 41,37 Go |
Chat Code Lama 7B (GGUF Q4_K_M) | 7B | 4,24 Go | 6,74 Go |
Code Lama 13B Chat (GGUF Q4_K_M) | 13B | 8,06 Go | 10,56 Go |
Phind Code Llama 34B Chat (GGUF Q4_K_M) | 34B | 20,22 Go | 22,72 Go |
Exécuter LlamaGPT sur un serveur domestique umbrelOS se fait en un seul clic. Installez-le simplement depuis l'App Store d'Umbrel.
Assurez-vous que Docker et Xcode sont installés.
Ensuite, clonez ce dépôt et cd
y :
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Exécutez LlamaGPT avec la commande suivante :
./run-mac.sh --model 7b
Vous pouvez accéder à LlamaGPT sur http://localhost:3000.
Pour exécuter des modèles de discussion 13B ou 70B, remplacez
7b
par13b
ou70b
respectivement. Pour exécuter les modèles Code Llama 7B, 13B ou 34B, remplacez7b
parcode-7b
,code-13b
oucode-34b
respectivement.
Pour arrêter LlamaGPT, faites Ctrl + C
dans Terminal.
Vous pouvez exécuter LlamaGPT sur n’importe quel système x86 ou arm64. Assurez-vous que Docker est installé.
Ensuite, clonez ce dépôt et cd
y :
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Exécutez LlamaGPT avec la commande suivante :
./run.sh --model 7b
Ou si vous disposez d'un GPU Nvidia, vous pouvez exécuter LlamaGPT avec le support CUDA en utilisant l'indicateur --with-cuda
, comme :
./run.sh --model 7b --with-cuda
Vous pouvez accéder à LlamaGPT sur http://localhost:3000
.
Pour exécuter des modèles de discussion 13B ou 70B, remplacez
7b
par13b
ou70b
respectivement. Pour exécuter les modèles Code Llama 7B, 13B ou 34B, remplacez7b
parcode-7b
,code-13b
oucode-34b
respectivement.
Pour arrêter LlamaGPT, faites Ctrl + C
dans Terminal.
Remarque : lors de la première exécution, le téléchargement du modèle dans le répertoire
/models
peut prendre un certain temps. Vous pouvez également voir de nombreux résultats comme celui-ci pendant quelques minutes, ce qui est normal :llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
Une fois que le modèle a été automatiquement téléchargé et chargé et que le serveur API est en cours d'exécution, vous verrez une sortie telle que :
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
Vous pouvez ensuite accéder à LlamaGPT sur http://localhost:3000.
Tout d’abord, assurez-vous que vous disposez d’un cluster Kubernetes en cours d’exécution et que kubectl
est configuré pour interagir avec lui.
Ensuite, clonez ce dépôt et cd
y.
Pour déployer sur Kubernetes, créez d'abord un espace de noms :
kubectl create ns llama
Appliquez ensuite les manifestes dans le répertoire /deploy/kubernetes
avec
kubectl apply -k deploy/kubernetes/. -n llama
Exposez votre service comme vous le feriez normalement.
Grâce à llama-cpp-python, un remplacement immédiat de l'API OpenAI est disponible sur http://localhost:3001
. Ouvrez http://localhost:3001/docs pour consulter la documentation de l'API.
Nous avons testé les modèles LlamaGPT sur le matériel suivant avec l'invite système par défaut et l'invite utilisateur : « Comment l'univers s'étend-il ? à température 0 pour garantir des résultats déterministes. La vitesse de génération est calculée en moyenne sur les 10 premières générations.
N'hésitez pas à ajouter vos propres benchmarks à ce tableau en ouvrant une pull request.
Appareil | Vitesse de génération |
---|---|
MacBook Pro M1 Max (64 Go de RAM) | 54 jetons/sec |
Processeur virtuel GCP c2-standard-16 (64 Go de RAM) | 16,7 jetons/s |
Ryzen 5700G 4,4 GHz 4c (16 Go de RAM) | 11,50 jetons/sec |
Processeur virtuel GCP c2-standard-4 (16 Go de RAM) | 4,3 jetons/s |
Parapluie Accueil (16 Go de RAM) | 2,7 jetons/s |
Framboise Pi 4 (8 Go de RAM) | 0,9 jetons/sec |
Appareil | Vitesse de génération |
---|---|
MacBook Pro M1 Max (64 Go de RAM) | 20 jetons/sec |
Processeur virtuel GCP c2-standard-16 (64 Go de RAM) | 8,6 jetons/s |
Processeur virtuel GCP c2-standard-4 (16 Go de RAM) | 2,2 jetons/s |
Parapluie Accueil (16 Go de RAM) | 1,5 jetons/s |
Appareil | Vitesse de génération |
---|---|
MacBook Pro M1 Max (64 Go de RAM) | 4,8 jetons/s |
Processeur virtuel GCP e2-standard-16 (64 Go de RAM) | 1,75 jetons/sec |
Processeur virtuel GCP c2-standard-16 (64 Go de RAM) | 1,62 jetons/s |
Appareil | Vitesse de génération |
---|---|
MacBook Pro M1 Max (64 Go de RAM) | 41 jetons/sec |
Appareil | Vitesse de génération |
---|---|
MacBook Pro M1 Max (64 Go de RAM) | 25 jetons/sec |
Appareil | Vitesse de génération |
---|---|
MacBook Pro M1 Max (64 Go de RAM) | 10,26 jetons/sec |
Nous cherchons à ajouter plus de fonctionnalités à LlamaGPT. Vous pouvez voir la feuille de route ici. Les plus hautes priorités sont :
Si vous êtes un développeur et souhaitez aider dans l'un de ces domaines, veuillez ouvrir un problème pour discuter de la meilleure façon de relever le défi. Si vous souhaitez aider mais ne savez pas par où commencer, consultez ces problèmes qui ont été spécifiquement marqués comme étant conviviaux pour les nouveaux contributeurs.
Un immense merci aux développeurs et équipes suivants pour avoir rendu LlamaGPT possible :
parapluie.com