Un chatbot autohospedado, sin conexión, similar a ChatGPT, impulsado por Llama 2. 100% privado, sin que salgan datos de su dispositivo.
Nuevo: Compatibilidad con modelos Code Llama y GPU Nvidia.
umbrel.com (estamos contratando) »
Actualmente, LlamaGPT soporta los siguientes modelos. La compatibilidad con la ejecución de modelos personalizados está en la hoja de ruta.
Nombre del modelo | Tamaño del modelo | Tamaño de descarga del modelo | Memoria requerida |
---|---|---|---|
Nous Hermes Llama 2 7B Chat (GGML q4_0) | 7B | 3,79GB | 6,29 GB |
Nous Hermes Llama 2 13B Chat (GGML q4_0) | 13B | 7,32 GB | 9,82 GB |
Nous Hermes Llama 2 70B Chat (GGML q4_0) | 70B | 38,87GB | 41,37GB |
Código Llama 7B Chat (GGUF Q4_K_M) | 7B | 4,24 GB | 6,74GB |
Código Llama 13B Chat (GGUF Q4_K_M) | 13B | 8,06 GB | 10,56GB |
Código Phind Llama 34B Chat (GGUF Q4_K_M) | 34B | 20,22 GB | 22,72 GB |
Ejecutar LlamaGPT en un servidor doméstico umbrelOS es un clic. Simplemente instálelo desde la tienda de aplicaciones Umbrel.
Asegúrate de tener Docker y Xcode instalados.
Luego, clona este repositorio y cd
en él:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Ejecute LlamaGPT con el siguiente comando:
./run-mac.sh --model 7b
Puedes acceder a LlamaGPT en http://localhost:3000.
Para ejecutar modelos de chat 13B o 70B, reemplace
7b
con13b
o70b
respectivamente. Para ejecutar los modelos Code Llama 7B, 13B o 34B, reemplace7b
concode-7b
,code-13b
ocode-34b
respectivamente.
Para detener LlamaGPT, presione Ctrl + C
en la Terminal.
Puedes ejecutar LlamaGPT en cualquier sistema x86 o arm64. Asegúrate de tener Docker instalado.
Luego, clona este repositorio y cd
en él:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Ejecute LlamaGPT con el siguiente comando:
./run.sh --model 7b
O si tienes una GPU Nvidia, puedes ejecutar LlamaGPT con soporte CUDA usando el indicador --with-cuda
, como:
./run.sh --model 7b --with-cuda
Puedes acceder a LlamaGPT en http://localhost:3000
.
Para ejecutar modelos de chat 13B o 70B, reemplace
7b
con13b
o70b
respectivamente. Para ejecutar los modelos Code Llama 7B, 13B o 34B, reemplace7b
concode-7b
,code-13b
ocode-34b
respectivamente.
Para detener LlamaGPT, presione Ctrl + C
en la Terminal.
Nota: En la primera ejecución, es posible que el modelo tarde un poco en descargarse en el directorio
/models
. También es posible que veas muchos resultados como este durante unos minutos, lo cual es normal:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
Una vez que el modelo se haya descargado y cargado automáticamente y el servidor API se esté ejecutando, verá un resultado como:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
Luego puede acceder a LlamaGPT en http://localhost:3000.
Primero, asegúrese de tener un clúster de Kubernetes en ejecución y kubectl
esté configurado para interactuar con él.
Luego, clone este repositorio y cd
en él.
Para implementar en Kubernetes, primero cree un espacio de nombres:
kubectl create ns llama
Luego aplique los manifiestos en el directorio /deploy/kubernetes
con
kubectl apply -k deploy/kubernetes/. -n llama
Exponga su servicio como lo haría normalmente.
Gracias a llama-cpp-python, hay disponible un reemplazo directo para la API OpenAI en http://localhost:3001
. Abra http://localhost:3001/docs para ver la documentación de la API.
Hemos probado modelos LlamaGPT en el siguiente hardware con el mensaje predeterminado del sistema y el mensaje del usuario: "¿Cómo se expande el universo?" a temperatura 0 para garantizar resultados deterministas. La velocidad de generación se promedia durante las primeras 10 generaciones.
Siéntase libre de agregar sus propios puntos de referencia a esta tabla abriendo una solicitud de extracción.
Dispositivo | Velocidad de generación |
---|---|
MacBook Pro M1 máx. (64 GB de RAM) | 54 fichas/seg |
GCP c2-estándar-16 vCPU (64 GB de RAM) | 16,7 fichas/seg |
Ryzen 5700G 4,4GHz 4c (16GB de RAM) | 11,50 fichas/seg |
GCP c2-estándar-4 vCPU (16 GB de RAM) | 4,3 fichas/seg |
Umbrel Inicio (16 GB de RAM) | 2,7 fichas/seg |
Frambuesa Pi 4 (8 GB de RAM) | 0,9 fichas/seg |
Dispositivo | Velocidad de generación |
---|---|
MacBook Pro M1 máx. (64 GB de RAM) | 20 fichas/seg |
GCP c2-estándar-16 vCPU (64 GB de RAM) | 8,6 fichas/seg |
GCP c2-estándar-4 vCPU (16 GB de RAM) | 2,2 fichas/seg |
Umbrel Inicio (16 GB de RAM) | 1,5 fichas/seg |
Dispositivo | Velocidad de generación |
---|---|
MacBook Pro M1 máx. (64 GB de RAM) | 4,8 fichas/seg |
GCP e2-estándar-16 vCPU (64 GB de RAM) | 1,75 fichas/seg |
GCP c2-estándar-16 vCPU (64 GB de RAM) | 1,62 fichas/seg |
Dispositivo | Velocidad de generación |
---|---|
MacBook Pro M1 máx. (64 GB de RAM) | 41 fichas/seg |
Dispositivo | Velocidad de generación |
---|---|
MacBook Pro M1 máx. (64 GB de RAM) | 25 fichas/seg |
Dispositivo | Velocidad de generación |
---|---|
MacBook Pro M1 máx. (64 GB de RAM) | 10,26 fichas/seg |
Estamos buscando agregar más funciones a LlamaGPT. Puedes ver la hoja de ruta aquí. Las máximas prioridades son:
Si es un desarrollador y desea ayudar con alguno de estos, abra un problema para analizar la mejor manera de abordar el desafío. Si busca ayuda pero no está seguro de por dónde empezar, consulte estos problemas que se han marcado específicamente como amigables para los nuevos contribuyentes.
Un enorme agradecimiento a los siguientes desarrolladores y equipos por hacer posible LlamaGPT:
paraguas.com