Chatbot mirip ChatGPT yang dihosting sendiri, offline, diberdayakan oleh Llama 2. 100% pribadi, tanpa data keluar dari perangkat Anda.
Baru: Dukungan untuk model Code Llama dan GPU Nvidia.
umbrel.com (kami sedang merekrut) »
Saat ini, LlamaGPT mendukung model berikut. Dukungan untuk menjalankan model kustom sedang dalam rencana.
Nama model | Ukuran model | Ukuran unduhan model | Diperlukan memori |
---|---|---|---|
Obrolan Nous Hermes Llama 2 7B (GGML q4_0) | 7B | 3,79GB | 6,29GB |
Obrolan Nous Hermes Llama 2 13B (GGML q4_0) | 13B | 7.32GB | 9,82GB |
Obrolan Nous Hermes Llama 2 70B (GGML q4_0) | 70B | 38,87GB | 41,37GB |
Kode Obrolan Llama 7B (GGUF Q4_K_M) | 7B | 4.24GB | 6,74GB |
Kode Obrolan Llama 13B (GGUF Q4_K_M) | 13B | 8.06GB | 10,56GB |
Obrolan Kode Phind Llama 34B (GGUF Q4_K_M) | 34B | 20,22GB | 22,72GB |
Menjalankan LlamaGPT di server rumah umbrelOS hanya dengan satu klik. Cukup instal dari Umbrel App Store.
Pastikan Anda telah menginstal Docker dan Xcode.
Kemudian, clone repo ini dan cd
ke dalamnya:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Jalankan LlamaGPT dengan perintah berikut:
./run-mac.sh --model 7b
Anda dapat mengakses LlamaGPT di http://localhost:3000.
Untuk menjalankan model obrolan 13B atau 70B, ganti
7b
dengan13b
atau70b
. Untuk menjalankan model Kode Llama 7B, 13B atau 34B, ganti7b
dengan masing-masingcode-7b
,code-13b
ataucode-34b
.
Untuk menghentikan LlamaGPT, lakukan Ctrl + C
di Terminal.
Anda dapat menjalankan LlamaGPT di sistem x86 atau arm64 apa pun. Pastikan Anda telah menginstal Docker.
Kemudian, clone repo ini dan cd
ke dalamnya:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
Jalankan LlamaGPT dengan perintah berikut:
./run.sh --model 7b
Atau jika Anda memiliki GPU Nvidia, Anda dapat menjalankan LlamaGPT dengan dukungan CUDA menggunakan flag --with-cuda
, seperti:
./run.sh --model 7b --with-cuda
Anda dapat mengakses LlamaGPT di http://localhost:3000
.
Untuk menjalankan model obrolan 13B atau 70B, ganti
7b
dengan13b
atau70b
. Untuk menjalankan model Kode Llama 7B, 13B atau 34B, ganti7b
dengan masing-masingcode-7b
,code-13b
ataucode-34b
.
Untuk menghentikan LlamaGPT, lakukan Ctrl + C
di Terminal.
Catatan: Saat pertama kali dijalankan, mungkin diperlukan waktu beberapa saat hingga model diunduh ke direktori
/models
. Anda mungkin juga melihat banyak keluaran seperti ini selama beberapa menit, dan ini normal:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
Setelah model diunduh dan dimuat secara otomatis, dan server API berjalan, Anda akan melihat keluaran seperti:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
Anda kemudian dapat mengakses LlamaGPT di http://localhost:3000.
Pertama, pastikan Anda menjalankan cluster Kubernetes dan kubectl
dikonfigurasi untuk berinteraksi dengannya.
Kemudian, kloning repo ini dan cd
ke dalamnya.
Untuk menerapkan ke Kubernetes, pertama-tama buatlah namespace:
kubectl create ns llama
Kemudian terapkan manifes di bawah direktori /deploy/kubernetes
dengan
kubectl apply -k deploy/kubernetes/. -n llama
Ekspos layanan Anda seperti biasa.
Berkat llama-cpp-python, pengganti OpenAI API tersedia di http://localhost:3001
. Buka http://localhost:3001/docs untuk melihat dokumentasi API.
Kami telah menguji model LlamaGPT pada perangkat keras berikut dengan perintah sistem default, dan perintah pengguna: "Bagaimana alam semesta berkembang?" pada suhu 0 untuk menjamin hasil deterministik. Kecepatan pembangkitan dirata-ratakan selama 10 generasi pertama.
Jangan ragu untuk menambahkan tolok ukur Anda sendiri ke tabel ini dengan membuka permintaan tarik.
Perangkat | Kecepatan generasi |
---|---|
M1 Max MacBook Pro (RAM 64GB) | 54 token/detik |
GCP c2-standar-16 vCPU (RAM 64 GB) | 16,7 token/detik |
ryzen 5700G 4.4GHz 4c (RAM 16GB) | 11,50 token/detik |
GCP c2-standar-4 vCPU (RAM 16 GB) | 4,3 token/detik |
Rumah Payung (RAM 16GB) | 2,7 token/detik |
Raspberry Pi 4 (RAM 8GB) | 0,9 token/detik |
Perangkat | Kecepatan generasi |
---|---|
M1 Max MacBook Pro (RAM 64GB) | 20 token/detik |
GCP c2-standar-16 vCPU (RAM 64 GB) | 8,6 token/detik |
GCP c2-standar-4 vCPU (RAM 16 GB) | 2,2 token/detik |
Rumah Payung (RAM 16GB) | 1,5 token/detik |
Perangkat | Kecepatan generasi |
---|---|
M1 Max MacBook Pro (RAM 64GB) | 4,8 token/detik |
GCP e2-standar-16 vCPU (RAM 64 GB) | 1,75 token/detik |
GCP c2-standar-16 vCPU (RAM 64 GB) | 1,62 token/detik |
Perangkat | Kecepatan generasi |
---|---|
M1 Max MacBook Pro (RAM 64GB) | 41 token/detik |
Perangkat | Kecepatan generasi |
---|---|
M1 Max MacBook Pro (RAM 64GB) | 25 token/detik |
Perangkat | Kecepatan generasi |
---|---|
M1 Max MacBook Pro (RAM 64GB) | 10,26 token/detik |
Kami ingin menambahkan lebih banyak fitur ke LlamaGPT. Anda dapat melihat peta jalannya di sini. Prioritas tertinggi adalah:
Jika Anda seorang pengembang yang ingin membantu mengatasi tantangan ini, silakan buka terbitan untuk mendiskusikan cara terbaik mengatasi tantangan tersebut. Jika Anda ingin membantu tetapi tidak yakin harus mulai dari mana, lihat masalah berikut yang secara khusus ditandai sebagai ramah terhadap kontributor baru.
Terima kasih sebesar-besarnya kepada pengembang dan tim berikut yang telah mewujudkan LlamaGPT:
payung.com