Alat untuk mengunduh dan mengonversi model HuggingFace tanpa drama.
Jika Anda menggunakan mesin dengan GPU NVIDIA/CUDA dan menginginkan dukungan AWQ/GPTQ:
pip3 install llm-quantkit[cuda]
Jika tidak, instalasi default akan berfungsi.
pip3 install llm-quantkit
Jika Anda memerlukan obor khusus perangkat, instal terlebih dahulu.
Proyek ini bergantung pada perpustakaan torch, awq, exl2, gptq, dan hqq.
Beberapa dependensi ini belum mendukung Python 3.12.
Python yang didukung: 3.8, 3.9, 3.10, dan 3.11
Usage: quantkit [OPTIONS] COMMAND [ARGS]...
Options:
--help Show this message and exit.
Commands:
download Download model from huggingface.
safetensor Download and/or convert a pytorch model to safetensor format.
awq Download and/or convert a model to AWQ format.
exl2 Download and/or convert a model to EXL2 format.
gguf Download and/or convert a model to GGUF format.
gptq Download and/or convert a model to GPTQ format.
hqq Download and/or convert a model to HQQ format.
Argumen pertama setelah perintah harus berupa id repo HF (mistralai/Mistral-7B-v0.1) atau direktori lokal dengan file model di dalamnya.
Perintah download secara default mengunduh ke dalam cache HF dan menghasilkan symlink di direktori keluaran, tetapi ada opsi --no-cache yang menempatkan file model di direktori keluaran.
AWQ defaultnya adalah 4 bit, ukuran grup 128, titik nol Benar.
Default GPTQ adalah 4 bit, ukuran grup 128, urutan aktivasi Salah.
EXL2 defaultnya adalah 8 bit kepala tetapi tidak ada bitrate default.
GGUF defaultnya tidak menggunakan imatrix tetapi tidak ada tipe quant default.
HQQ defaultnya adalah 4 bit, ukuran grup 64, zero_point=True.
Unduh model dari HF dan jangan gunakan cache HF:
quantkit download teknium/Hermes-Trismegistus-Mistral-7B --no-cache
Hanya unduh versi model safetensor (berguna untuk model yang memiliki obor dan safetensor):
quantkit download mistralai/Mistral-7B-v0.1 --no-cache --safetensors-only -out mistral7b
Unduh dari revisi khusus repo pelukan:
uantkit download turboderp/TinyLlama-1B-32k-exl2 --branch 6.0bpw --no-cache -out TinyLlama-1B-32k-exl2-b6
Unduh dan konversi model menjadi safetensor, hapus bin pytorch asli:
quantkit safetensor migtissera/Tess-10.7B-v1.5b --delete-original
Unduh dan konversi model ke GGUF (Q5_K):
quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-Q5_K.gguf Q5_K
Unduh dan konversi model ke GGUF menggunakan imatrix, keluarkan 200 lapisan:
quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-IQ4_XS.gguf IQ4_XS --built-in-imatrix -ngl 200
Unduh dan konversikan model ke AWQ:
quantkit awq mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-AWQ
Mengonversi model ke GPTQ (4 bit / ukuran grup 32):
quantkit gptq mistral7b -out Mistral-7B-v0.1-GPTQ -b 4 --group-size 32
Ubah model menjadi exlllamav2:
quantkit exl2 mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-exl2-b8-h8 -b 8 -hb 8
Ubah model menjadi HQQ:
quantkit hqq mistralai/Mistral-7B-v0.1 -out Mistral-7B-HQQ-w4-gs64
Inilah yang berhasil bagi saya dalam pengujian. Berikan PR atau Masalah dengan pembaruan tentang apa yang mungkin dilakukan pada berbagai ukuran kartu.
Konversi GGUF tidak memerlukan GPU kecuali iMatrix dan Exllamav2 mengharuskan lapisan terbesar muat pada satu GPU.
Ukuran Model | Bergalah | VRAM | Berhasil |
---|---|---|---|
7B | AWQ | 24GB | ✅ |
7B | EXL2 | 24GB | ✅ |
7B | GGUF | 24GB | ✅ |
7B | GPTQ | 24GB | ✅ |
7B | markas besar | 24GB | ✅ |
13B | AWQ | 24GB | ✅ |
13B | EXL2 | 24GB | ✅ |
13B | GGUF | 24GB | ✅ |
13B | GPTQ | 24GB | |
13B | markas besar | 24GB | ? |
34B | AWQ | 24GB | |
34B | EXL2 | 24GB | ✅ |
34B | GGUF | 24GB | ✅ |
34B | GPTQ | 24GB | |
34B | markas besar | 24GB | ? |
70B | AWQ | 24GB | |
70B | EXL2 | 24GB | ✅ |
70B | GGUF | 24GB | ✅ |
70B | GPTQ | 24GB | |
70B | markas besar | 24GB | ? |
Masih dalam versi beta. Pembongkaran Llama.cpp mungkin tidak akan berfungsi pada platform Anda kecuali Anda menghapus instalasi llama-cpp-conv dan menginstalnya kembali dengan flag build yang tepat. Lihat dokumentasi llama-cpp-python dan ikuti perintah yang relevan tetapi ganti llama-cpp-python dengan llama-cpp-conv.