Um chatbot auto-hospedado, offline, tipo ChatGPT, desenvolvido com Llama 2. 100% privado, sem dados saindo do seu dispositivo.
Novo: Suporte para modelos Code Llama e GPUs Nvidia.
umbrel.com (estamos contratando) »
Atualmente, o LlamaGPT oferece suporte aos seguintes modelos. O suporte para execução de modelos personalizados está no roteiro.
Nome do modelo | Tamanho do modelo | Tamanho de download do modelo | Memória necessária |
---|---|---|---|
Nous Hermes Llama 2 7B Bate-papo (GGML q4_0) | 7B | 3,79 GB | 6,29 GB |
Nous Hermes Llama 2 13B Bate-papo (GGML q4_0) | 13B | 7,32 GB | 9,82 GB |
Nous Hermes Llama 2 70B Bate-papo (GGML q4_0) | 70B | 38,87 GB | 41,37 GB |
Código Lhama 7B Chat (GGUF Q4_K_M) | 7B | 4,24 GB | 6,74 GB |
Código Lhama 13B Chat (GGUF Q4_K_M) | 13B | 8,06 GB | 10,56 GB |
Bate-papo do código Phind Llama 34B (GGUF Q4_K_M) | 34B | 20,22 GB | 22,72 GB |
Executar o LlamaGPT em um servidor doméstico umbrelOS leva apenas um clique. Basta instalá-lo na Umbrel App Store.
Certifique-se de ter o Docker e o Xcode instalados.
Em seguida, clone este repositório e cd
nele:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Execute o LlamaGPT com o seguinte comando:
./run-mac.sh --model 7b
Você pode acessar o LlamaGPT em http://localhost:3000.
Para executar modelos de chat 13B ou 70B, substitua
7b
por13b
ou70b
respectivamente. Para executar os modelos Code Llama 7B, 13B ou 34B, substitua7b
porcode-7b
,code-13b
oucode-34b
respectivamente.
Para parar o LlamaGPT, faça Ctrl + C
no Terminal.
Você pode executar o LlamaGPT em qualquer sistema x86 ou arm64. Certifique-se de ter o Docker instalado.
Em seguida, clone este repositório e cd
nele:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Execute o LlamaGPT com o seguinte comando:
./run.sh --model 7b
Ou se você tiver uma GPU Nvidia, você pode executar o LlamaGPT com suporte CUDA usando o sinalizador --with-cuda
, como:
./run.sh --model 7b --with-cuda
Você pode acessar o LlamaGPT em http://localhost:3000
.
Para executar modelos de chat 13B ou 70B, substitua
7b
por13b
ou70b
respectivamente. Para executar os modelos Code Llama 7B, 13B ou 34B, substitua7b
porcode-7b
,code-13b
oucode-34b
respectivamente.
Para parar o LlamaGPT, faça Ctrl + C
no Terminal.
Nota: Na primeira execução, pode demorar um pouco para que o modelo seja baixado para o diretório
/models
. Você também poderá ver muitos resultados como este por alguns minutos, o que é normal:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
Depois que o modelo for baixado e carregado automaticamente e o servidor API estiver em execução, você verá uma saída como:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
Você pode então acessar o LlamaGPT em http://localhost:3000.
Primeiro, certifique-se de ter um cluster Kubernetes em execução e que kubectl
esteja configurado para interagir com ele.
Em seguida, clone este repositório e cd
nele.
Para implantar no Kubernetes, primeiro crie um namespace:
kubectl create ns llama
Em seguida, aplique os manifestos no diretório /deploy/kubernetes
com
kubectl apply -k deploy/kubernetes/. -n llama
Exponha seu serviço da maneira que você faria normalmente.
Graças ao llama-cpp-python, um substituto imediato para a API OpenAI está disponível em http://localhost:3001
. Abra http://localhost:3001/docs para ver a documentação da API.
Testamos modelos LlamaGPT no seguinte hardware com o prompt padrão do sistema e o prompt do usuário: "Como o universo se expande?" à temperatura 0 para garantir resultados determinísticos. A velocidade de geração é calculada em média nas primeiras 10 gerações.
Sinta-se à vontade para adicionar seus próprios benchmarks a esta tabela abrindo uma solicitação pull.
Dispositivo | Velocidade de geração |
---|---|
MacBook Pro M1 Max (64 GB de RAM) | 54 tokens/s |
GCP c2-padrão-16 vCPU (64 GB de RAM) | 16,7 tokens/s |
Ryzen 5700G 4,4 GHz 4c (16 GB de RAM) | 11,50 tokens/s |
GCP c2-standard-4 vCPU (16 GB de RAM) | 4,3 tokens/s |
Casa Umbrel (16 GB de RAM) | 2,7 tokens/s |
Framboesa Pi 4 (8 GB de RAM) | 0,9 tokens/s |
Dispositivo | Velocidade de geração |
---|---|
MacBook Pro M1 Max (64 GB de RAM) | 20 tokens/s |
GCP c2-padrão-16 vCPU (64 GB de RAM) | 8,6 tokens/s |
GCP c2-standard-4 vCPU (16 GB de RAM) | 2,2 tokens/s |
Casa Umbrel (16 GB de RAM) | 1,5 tokens/s |
Dispositivo | Velocidade de geração |
---|---|
MacBook Pro M1 Max (64 GB de RAM) | 4,8 tokens/s |
GCP e2-padrão-16 vCPU (64 GB de RAM) | 1,75 tokens/s |
GCP c2-padrão-16 vCPU (64 GB de RAM) | 1,62 tokens/s |
Dispositivo | Velocidade de geração |
---|---|
MacBook Pro M1 Max (64 GB de RAM) | 41 tokens/s |
Dispositivo | Velocidade de geração |
---|---|
MacBook Pro M1 Max (64 GB de RAM) | 25 tokens/s |
Dispositivo | Velocidade de geração |
---|---|
MacBook Pro M1 Max (64 GB de RAM) | 10,26 tokens/s |
Queremos adicionar mais recursos ao LlamaGPT. Você pode ver o roteiro aqui. As maiores prioridades são:
Se você é um desenvolvedor e gostaria de ajudar com alguma dessas questões, abra um problema para discutir a melhor maneira de enfrentar o desafio. Se você está procurando ajuda, mas não sabe por onde começar, verifique estes problemas que foram especificamente marcados como amigáveis para novos colaboradores.
Um enorme obrigado aos seguintes desenvolvedores e equipes por tornarem o LlamaGPT possível:
umbrel.com