เครื่องมือสำหรับการดาวน์โหลดและแปลงโมเดล HuggingFace โดยไม่ต้องดราม่า
หากคุณใช้เครื่องที่มี NVIDIA/CUDA GPU และต้องการรองรับ AWQ/GPTQ:
pip3 install llm-quantkit[cuda]
มิฉะนั้น การติดตั้งเริ่มต้นจะใช้งานได้
pip3 install llm-quantkit
หากคุณต้องการไฟฉายเฉพาะอุปกรณ์ ให้ติดตั้งก่อน
โปรเจ็กต์นี้ขึ้นอยู่กับไลบรารี torch, awq, exl2, gptq และ hqq
การขึ้นต่อกันเหล่านี้บางส่วนยังไม่รองรับ Python 3.12
Python ที่รองรับ: 3.8, 3.9, 3.10 และ 3.11
Usage: quantkit [OPTIONS] COMMAND [ARGS]...
Options:
--help Show this message and exit.
Commands:
download Download model from huggingface.
safetensor Download and/or convert a pytorch model to safetensor format.
awq Download and/or convert a model to AWQ format.
exl2 Download and/or convert a model to EXL2 format.
gguf Download and/or convert a model to GGUF format.
gptq Download and/or convert a model to GPTQ format.
hqq Download and/or convert a model to HQQ format.
อาร์กิวเมนต์แรกหลังคำสั่งควรเป็น HF repo id (mistralai/Mistral-7B-v0.1) หรือไดเร็กทอรีในเครื่องที่มีไฟล์โมเดลอยู่แล้ว
คำสั่งดาวน์โหลดมีค่าเริ่มต้นเป็นการดาวน์โหลดลงในแคช HF และสร้างลิงก์สัญลักษณ์ในเอาต์พุต dir แต่มีตัวเลือก --no-cache ที่จะวางไฟล์โมเดลไว้ในไดเร็กทอรีเอาต์พุต
AWQ มีค่าเริ่มต้นอยู่ที่ 4 บิต ขนาดกลุ่ม 128 จุด True เป็นศูนย์
ค่าเริ่มต้นของ GPTQ คือ 4 บิต ขนาดกลุ่ม 128 ลำดับการเปิดใช้งานเป็นเท็จ
EXL2 มีค่าเริ่มต้นเป็น 8 บิต แต่ไม่มีบิตเรตเริ่มต้น
GGUF มีค่าเริ่มต้นเป็นไม่มี imatrix แต่ไม่มีประเภทปริมาณเริ่มต้น
HQQ มีค่าเริ่มต้นเป็น 4 บิต ขนาดกลุ่ม 64, zero_point=True
ดาวน์โหลดโมเดลจาก HF และอย่าใช้แคช HF:
quantkit download teknium/Hermes-Trismegistus-Mistral-7B --no-cache
ดาวน์โหลดเฉพาะรุ่นเซฟเทนเซอร์ (มีประโยชน์สำหรับรุ่นที่มีไฟฉายและเซฟเทนเซอร์):
quantkit download mistralai/Mistral-7B-v0.1 --no-cache --safetensors-only -out mistral7b
ดาวน์โหลดจากการแก้ไขเฉพาะของ repo ของ Huggingface:
uantkit download turboderp/TinyLlama-1B-32k-exl2 --branch 6.0bpw --no-cache -out TinyLlama-1B-32k-exl2-b6
ดาวน์โหลดและแปลงโมเดลเป็นเซฟเทนเซอร์ โดยลบ pytorch bins ดั้งเดิม:
quantkit safetensor migtissera/Tess-10.7B-v1.5b --delete-original
ดาวน์โหลดและแปลงโมเดลเป็น GGUF (Q5_K):
quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-Q5_K.gguf Q5_K
ดาวน์โหลดและแปลงโมเดลเป็น GGUF โดยใช้อิมาทริกซ์ โดยลดการโหลด 200 เลเยอร์:
quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-IQ4_XS.gguf IQ4_XS --built-in-imatrix -ngl 200
ดาวน์โหลดและแปลงโมเดลเป็น AWQ:
quantkit awq mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-AWQ
แปลงโมเดลเป็น GPTQ (4 บิต / ขนาดกลุ่ม 32):
quantkit gptq mistral7b -out Mistral-7B-v0.1-GPTQ -b 4 --group-size 32
แปลงโมเดลเป็น exllamav2:
quantkit exl2 mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-exl2-b8-h8 -b 8 -hb 8
แปลงโมเดลเป็น HQQ:
quantkit hqq mistralai/Mistral-7B-v0.1 -out Mistral-7B-HQQ-w4-gs64
นี่คือสิ่งที่ได้ผลสำหรับฉันในการทดสอบ ทิ้งการประชาสัมพันธ์หรือปัญหาพร้อมการอัปเดตสำหรับสิ่งที่เป็นไปได้ในการ์ดขนาดต่างๆ
การแปลง GGUF ไม่จำเป็นต้องใช้ GPU ยกเว้น iMatrix และ Exllamav2 ต้องการให้เลเยอร์ที่ใหญ่ที่สุดพอดีกับ GPU ตัวเดียว
ขนาดรุ่น | ปริมาณ | วีแรม | ประสบความสำเร็จ |
---|---|---|---|
7B | AWQ | 24GB | |
7B | EXL2 | 24GB | |
7B | จีจีเอฟ | 24GB | |
7B | GPTQ | 24GB | |
7B | HQQ | 24GB | |
13B | AWQ | 24GB | |
13B | EXL2 | 24GB | |
13B | จีจีเอฟ | 24GB | |
13B | GPTQ | 24GB | |
13B | HQQ | 24GB | - |
34B | AWQ | 24GB | |
34B | EXL2 | 24GB | |
34B | จีจีเอฟ | 24GB | |
34B | GPTQ | 24GB | |
34B | HQQ | 24GB | - |
70B | AWQ | 24GB | |
70B | EXL2 | 24GB | |
70B | จีจีเอฟ | 24GB | |
70B | GPTQ | 24GB | |
70B | HQQ | 24GB | - |
ยังอยู่ในช่วงเบต้า การออฟโหลด Llama.cpp อาจจะไม่ทำงานบนแพลตฟอร์มของคุณ เว้นแต่คุณจะถอนการติดตั้ง llama-cpp-conv และติดตั้งใหม่ด้วยแฟล็กบิลด์ที่เหมาะสม ดูเอกสารประกอบ llama-cpp-python และปฏิบัติตามคำสั่งที่เกี่ยวข้อง แต่แทนที่ llama-cpp-python ด้วย llama-cpp-conv