แชทบอตที่โฮสต์เอง ออฟไลน์ เหมือน ChatGPT ขับเคลื่อนโดย Llama 2 เป็นส่วนตัว 100% โดยไม่มีข้อมูลออกจากอุปกรณ์ของคุณ
ใหม่: รองรับโมเดล Code Llama และ Nvidia GPU
umbrel.com (เรากำลังรับสมัครงาน) »
ปัจจุบัน LlamaGPT รองรับรุ่นต่อไปนี้ การสนับสนุนสำหรับการรันโมเดลแบบกำหนดเองนั้นอยู่ในแผนงาน
ชื่อรุ่น | ขนาดโมเดล | ขนาดการดาวน์โหลดโมเดล | ต้องใช้หน่วยความจำ |
---|---|---|---|
Nous Hermes Llama 2 7B แชท (GGML q4_0) | 7B | 3.79GB | 6.29GB |
Nous Hermes Llama 2 13B แชท (GGML q4_0) | 13B | 7.32GB | 9.82GB |
Nous Hermes Llama 2 70B แชท (GGML q4_0) | 70B | 38.87GB | 41.37GB |
รหัส Llama 7B แชท (GGUF Q4_K_M) | 7B | 4.24GB | 6.74GB |
รหัส Llama 13B แชท (GGUF Q4_K_M) | 13B | 8.06GB | 10.56GB |
Phind Code Llama 34B แชท (GGUF Q4_K_M) | 34B | 20.22GB | 22.72GB |
การเรียกใช้ LlamaGPT บนโฮมเซิร์ฟเวอร์ umbrelOS ทำได้เพียงคลิกเดียว เพียงติดตั้งจาก Umbrel App Store
ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง Docker และ Xcode แล้ว
จากนั้น โคลน repo นี้และ cd
ลงไป:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
เรียกใช้ LlamaGPT ด้วยคำสั่งต่อไปนี้:
./run-mac.sh --model 7b
คุณสามารถเข้าถึง LlamaGPT ได้ที่ http://localhost:3000
หากต้องการรันโมเดลแชท 13B หรือ 70B ให้แทนที่
7b
ด้วย13b
หรือ70b
ตามลำดับ หากต้องการรันโมเดล Code Llama 7B, 13B หรือ 34B ให้แทนที่7b
ด้วยcode-7b
,code-13b
หรือcode-34b
ตามลำดับ
หากต้องการหยุด LlamaGPT ให้กด Ctrl + C
ใน Terminal
คุณสามารถรัน LlamaGPT บนระบบ x86 หรือ arm64 ใดก็ได้ ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง Docker แล้ว
จากนั้น โคลน repo นี้และ cd
ลงไป:
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
เรียกใช้ LlamaGPT ด้วยคำสั่งต่อไปนี้:
./run.sh --model 7b
หรือหากคุณมี Nvidia GPU คุณสามารถเรียกใช้ LlamaGPT พร้อมรองรับ CUDA ได้โดยใช้แฟล็ก --with-cuda
เช่น:
./run.sh --model 7b --with-cuda
คุณสามารถเข้าถึง LlamaGPT ได้ที่ http://localhost:3000
หากต้องการรันโมเดลแชท 13B หรือ 70B ให้แทนที่
7b
ด้วย13b
หรือ70b
ตามลำดับ หากต้องการเรียกใช้โมเดล Code Llama 7B, 13B หรือ 34B ให้แทนที่7b
ด้วยcode-7b
,code-13b
หรือcode-34b
ตามลำดับ
หากต้องการหยุด LlamaGPT ให้กด Ctrl + C
ใน Terminal
หมายเหตุ: ในการรันครั้งแรก อาจใช้เวลาสักครู่ในการดาวน์โหลดโมเดลไปยังไดเร็กทอรี
/models
คุณอาจเห็นผลลัพธ์จำนวนมากเช่นนี้เป็นเวลาสองสามนาที ซึ่งเป็นเรื่องปกติ:llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
หลังจากดาวน์โหลดและโหลดโมเดลโดยอัตโนมัติแล้ว และเซิร์ฟเวอร์ API กำลังทำงานอยู่ คุณจะเห็นผลลัพธ์ดังนี้:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
จากนั้นคุณสามารถเข้าถึง LlamaGPT ได้ที่ http://localhost:3000
ขั้นแรก ตรวจสอบให้แน่ใจว่าคุณมีคลัสเตอร์ Kubernetes ที่ทำงานอยู่ และมีการกำหนดค่า kubectl
ให้โต้ตอบกับคลัสเตอร์นั้น
จากนั้น โคลน repo นี้และ cd
ลงไป
หากต้องการปรับใช้กับ Kubernetes ให้สร้างเนมสเปซก่อน:
kubectl create ns llama
จากนั้นใช้รายการภายใต้ไดเร็กทอรี /deploy/kubernetes
ด้วย
kubectl apply -k deploy/kubernetes/. -n llama
เปิดเผยบริการของคุณอย่างไรก็ตามคุณจะทำเช่นนั้นตามปกติ
ขอบคุณ llama-cpp-python การแทนที่แบบดรอปอินสำหรับ OpenAI API มีอยู่ที่ http://localhost:3001
เปิด http://localhost:3001/docs เพื่อดูเอกสารประกอบ API
เราได้ทดสอบโมเดล LlamaGPT บนฮาร์ดแวร์ต่อไปนี้พร้อมข้อความแจ้งของระบบเริ่มต้น และข้อความแจ้งผู้ใช้: "จักรวาลขยายตัวอย่างไร" ที่อุณหภูมิ 0 เพื่อรับประกันผลลัพธ์ที่กำหนด ความเร็วในการสร้างเป็นค่าเฉลี่ยในช่วง 10 รุ่นแรก
คุณสามารถเพิ่มเกณฑ์มาตรฐานของคุณเองลงในตารางนี้ได้โดยการเปิดคำขอดึง
อุปกรณ์ | ความเร็วในการสร้าง |
---|---|
M1 แม็กซ์ MacBook Pro (แรม 64GB) | 54 โทเค็น/วินาที |
GCP c2-มาตรฐาน-16 vCPU (RAM 64 GB) | 16.7 โทเค็น/วินาที |
Ryzen 5700G 4.4GHz 4c (แรม 16GB) | 11.50 โทเค็น/วินาที |
GCP c2-มาตรฐาน-4 vCPU (RAM 16 GB) | โทเค็น 4.3/วินาที |
ร่มบ้าน (RAM 16GB) | 2.7 โทเค็น/วินาที |
ราสเบอร์รี่ Pi 4 (แรม 8GB) | 0.9 โทเค็น/วินาที |
อุปกรณ์ | ความเร็วในการสร้าง |
---|---|
M1 แม็กซ์ MacBook Pro (แรม 64GB) | 20 โทเค็น/วินาที |
GCP c2-มาตรฐาน-16 vCPU (RAM 64 GB) | 8.6 โทเค็น/วินาที |
GCP c2-มาตรฐาน-4 vCPU (RAM 16 GB) | 2.2 โทเค็น/วินาที |
ร่มบ้าน (RAM 16GB) | 1.5 โทเค็น/วินาที |
อุปกรณ์ | ความเร็วในการสร้าง |
---|---|
M1 แม็กซ์ MacBook Pro (แรม 64GB) | 4.8 โทเค็น/วินาที |
GCP e2-มาตรฐาน-16 vCPU (RAM 64 GB) | 1.75 โทเค็น/วินาที |
GCP c2-มาตรฐาน-16 vCPU (RAM 64 GB) | 1.62 โทเค็น/วินาที |
อุปกรณ์ | ความเร็วในการสร้าง |
---|---|
M1 แม็กซ์ MacBook Pro (แรม 64GB) | 41 โทเค็น/วินาที |
อุปกรณ์ | ความเร็วในการสร้าง |
---|---|
M1 แม็กซ์ MacBook Pro (แรม 64GB) | 25 โทเค็น/วินาที |
อุปกรณ์ | ความเร็วในการสร้าง |
---|---|
M1 แม็กซ์ MacBook Pro (แรม 64GB) | 10.26 โทเค็น/วินาที |
เราต้องการเพิ่มคุณสมบัติเพิ่มเติมให้กับ LlamaGPT คุณสามารถดูแผนงานได้ที่นี่ ลำดับความสำคัญสูงสุดคือ:
หากคุณเป็นนักพัฒนาซอฟต์แวร์ที่ต้องการช่วยเหลือในเรื่องเหล่านี้ โปรดเปิดประเด็นเพื่อหารือเกี่ยวกับวิธีที่ดีที่สุดในการจัดการกับความท้าทาย หากคุณต้องการความช่วยเหลือแต่ไม่แน่ใจว่าจะเริ่มต้นจากตรงไหน ลองดูปัญหาเหล่านี้ที่ได้รับการทำเครื่องหมายว่าเป็นมิตรกับผู้ร่วมให้ข้อมูลรายใหม่โดยเฉพาะ
ขอขอบคุณอย่างยิ่งต่อนักพัฒนาและทีมต่อไปนี้ที่ทำให้ LlamaGPT เป็นไปได้:
ร่ม.com