Llama 2로 구동되는 자체 호스팅 오프라인 ChatGPT와 유사한 챗봇입니다. 100% 비공개이며 장치 외부로 데이터가 유출되지 않습니다.
신규: Code Llama 모델 및 Nvidia GPU 지원.
umbrel.com (채용 중) »
현재 LlamaGPT는 다음 모델을 지원합니다. 사용자 정의 모델 실행에 대한 지원은 로드맵에 있습니다.
모델명 | 모델 크기 | 모델 다운로드 크기 | 필요한 메모리 |
---|---|---|---|
Nous Hermes Llama 2 7B 채팅(GGML q4_0) | 7B | 3.79GB | 6.29GB |
Nous Hermes Llama 2 13B 채팅(GGML q4_0) | 13B | 7.32GB | 9.82GB |
Nous Hermes Llama 2 70B 채팅(GGML q4_0) | 70B | 38.87GB | 41.37GB |
코드 라마 7B 채팅(GGUF Q4_K_M) | 7B | 4.24GB | 6.74GB |
코드 라마 13B 채팅(GGUF Q4_K_M) | 13B | 8.06GB | 10.56GB |
핀드 코드 라마 34B 채팅(GGUF Q4_K_M) | 34B | 20.22GB | 22.72GB |
UmbrelOS 홈 서버에서 LlamaGPT를 실행하는 것은 한 번의 클릭으로 이루어집니다. Umbrel App Store에서 간단히 설치하세요.
Docker와 Xcode가 설치되어 있는지 확인하세요.
그런 다음 이 저장소를 복제하고 여기에 cd
넣으세요.
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
다음 명령을 사용하여 LlamaGPT를 실행합니다.
./run-mac.sh --model 7b
http://localhost:3000에서 LlamaGPT에 액세스할 수 있습니다.
13B 또는 70B 채팅 모델을 실행하려면
7b
각각13b
또는70b
로 바꾸십시오. 7B, 13B 또는 34B Code Llama 모델을 실행하려면7b
각각code-7b
,code-13b
또는code-34b
로 바꾸십시오.
LlamaGPT를 중지하려면 터미널에서 Ctrl + C
누르세요.
모든 x86 또는 arm64 시스템에서 LlamaGPT를 실행할 수 있습니다. Docker가 설치되어 있는지 확인하세요.
그런 다음 이 저장소를 복제하고 여기에 cd
넣으세요.
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
다음 명령을 사용하여 LlamaGPT를 실행합니다.
./run.sh --model 7b
또는 Nvidia GPU가 있는 경우 다음과 같이 --with-cuda
플래그를 사용하여 CUDA 지원과 함께 LlamaGPT를 실행할 수 있습니다.
./run.sh --model 7b --with-cuda
http://localhost:3000
에서 LlamaGPT에 액세스할 수 있습니다.
13B 또는 70B 채팅 모델을 실행하려면
7b
각각13b
또는70b
로 바꾸십시오. Code Llama 7B, 13B 또는 34B 모델을 실행하려면7b
각각code-7b
,code-13b
또는code-34b
로 바꾸십시오.
LlamaGPT를 중지하려면 터미널에서 Ctrl + C
누르세요.
참고: 처음 실행 시 모델이
/models
디렉터리에 다운로드되는 데 시간이 걸릴 수 있습니다. 몇 분 동안 다음과 같은 출력이 많이 나타날 수도 있습니다. 이는 정상적인 현상입니다.llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
모델이 자동으로 다운로드 및 로드되고 API 서버가 실행되면 다음과 같은 출력이 표시됩니다.
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
그런 다음 http://localhost:3000에서 LlamaGPT에 액세스할 수 있습니다.
먼저, 실행 중인 Kubernetes 클러스터가 있고 kubectl
이와 상호 작용하도록 구성되어 있는지 확인하세요.
그런 다음 이 저장소를 복제하고 여기에 cd
넣으세요.
Kubernetes에 배포하려면 먼저 네임스페이스를 만듭니다.
kubectl create ns llama
그런 다음 /deploy/kubernetes
디렉터리 아래에 매니페스트를 적용합니다.
kubectl apply -k deploy/kubernetes/. -n llama
일반적으로 수행하는 방식으로 서비스를 노출하십시오.
llama-cpp-python 덕분에 http://localhost:3001
에서 OpenAI API의 드롭인 대체품을 사용할 수 있습니다. API 문서를 보려면 http://localhost:3001/docs를 엽니다.
우리는 기본 시스템 프롬프트와 사용자 프롬프트 "우주는 어떻게 팽창합니까?"를 사용하여 다음 하드웨어에서 LlamaGPT 모델을 테스트했습니다. 결정론적 결과를 보장하기 위해 온도 0에서. 세대 속도는 처음 10세대에 대한 평균입니다.
끌어오기 요청을 열어 이 테이블에 자신만의 벤치마크를 자유롭게 추가하세요.
장치 | 생성 속도 |
---|---|
M1 Max 맥북 프로(64GB RAM) | 54개 토큰/초 |
GCP c2-standard-16 vCPU(64GB RAM) | 16.7 토큰/초 |
라이젠 5700G 4.4GHz 4c(16GB RAM) | 11.50 토큰/초 |
GCP c2-standard-4 vCPU(16GB RAM) | 4.3 토큰/초 |
엄브렐 홈(16GB RAM) | 2.7 토큰/초 |
라즈베리 파이 4(8GB RAM) | 0.9 토큰/초 |
장치 | 생성 속도 |
---|---|
M1 Max 맥북 프로(64GB RAM) | 20개 토큰/초 |
GCP c2-standard-16 vCPU(64GB RAM) | 8.6 토큰/초 |
GCP c2-standard-4 vCPU(16GB RAM) | 2.2 토큰/초 |
엄브렐 홈(16GB RAM) | 1.5 토큰/초 |
장치 | 생성 속도 |
---|---|
M1 Max 맥북 프로(64GB RAM) | 4.8 토큰/초 |
GCP e2-standard-16 vCPU(64GB RAM) | 1.75 토큰/초 |
GCP c2-standard-16 vCPU(64GB RAM) | 1.62 토큰/초 |
장치 | 생성 속도 |
---|---|
M1 Max 맥북 프로(64GB RAM) | 41개 토큰/초 |
장치 | 생성 속도 |
---|---|
M1 Max 맥북 프로(64GB RAM) | 25개 토큰/초 |
장치 | 생성 속도 |
---|---|
M1 Max 맥북 프로(64GB RAM) | 10.26 토큰/초 |
우리는 LlamaGPT에 더 많은 기능을 추가하려고 합니다. 여기에서 로드맵을 볼 수 있습니다. 가장 높은 우선순위는 다음과 같습니다.
이러한 문제에 도움을 주고 싶은 개발자라면 문제를 해결하는 가장 좋은 방법에 대해 토론할 수 있는 문제를 열어주세요. 도움을 주고 싶지만 어디서부터 시작해야 할지 확신이 없다면, 새로운 기여자에게 친숙하다고 특별히 표시된 문제를 확인하세요.
LlamaGPT를 가능하게 해주신 다음 개발자와 팀에 진심으로 감사드립니다.
umbrel.com