드라마 없이 HuggingFace 모델을 다운로드하고 변환하는 도구입니다.
NVIDIA/CUDA GPU가 있는 컴퓨터를 사용하고 있고 AWQ/GPTQ 지원을 원하는 경우:
pip3 install llm-quantkit[cuda]
그렇지 않으면 기본 설치가 작동합니다.
pip3 install llm-quantkit
장치별 토치가 필요한 경우 먼저 설치하십시오.
이 프로젝트는 torch, awq, exl2, gptq 및 hqq 라이브러리에 따라 다릅니다.
이러한 종속성 중 일부는 아직 Python 3.12를 지원하지 않습니다.
지원되는 Python: 3.8, 3.9, 3.10 및 3.11
Usage: quantkit [OPTIONS] COMMAND [ARGS]...
Options:
--help Show this message and exit.
Commands:
download Download model from huggingface.
safetensor Download and/or convert a pytorch model to safetensor format.
awq Download and/or convert a model to AWQ format.
exl2 Download and/or convert a model to EXL2 format.
gguf Download and/or convert a model to GGUF format.
gptq Download and/or convert a model to GPTQ format.
hqq Download and/or convert a model to HQQ format.
명령 뒤의 첫 번째 인수는 HF 저장소 ID(mistralai/Mistral-7B-v0.1)이거나 이미 모델 파일이 있는 로컬 디렉터리여야 합니다.
download 명령은 기본적으로 HF 캐시로 다운로드하고 출력 디렉터리에 심볼릭 링크를 생성하지만 모델 파일을 출력 디렉터리에 배치하는 --no-cache 옵션이 있습니다.
AWQ의 기본값은 4비트, 그룹 크기 128, 0점 True입니다.
GPTQ 기본값은 4비트, 그룹 크기 128, 활성화 순서 False입니다.
EXL2의 기본값은 8헤드 비트이지만 기본 비트 전송률은 없습니다.
GGUF는 기본적으로 imatrix가 없지만 기본 퀀트 유형은 없습니다.
HQQ의 기본값은 4비트, 그룹 크기 64, zero_point=True입니다.
HF에서 모델을 다운로드하고 HF 캐시를 사용하지 마세요.
quantkit download teknium/Hermes-Trismegistus-Mistral-7B --no-cache
모델의 safetensor 버전만 다운로드하십시오(토치 및 safetensor가 있는 모델에 유용함).
quantkit download mistralai/Mistral-7B-v0.1 --no-cache --safetensors-only -out mistral7b
Huggingface 저장소의 특정 개정판에서 다운로드하십시오.
uantkit download turboderp/TinyLlama-1B-32k-exl2 --branch 6.0bpw --no-cache -out TinyLlama-1B-32k-exl2-b6
모델을 다운로드하고 safetensor로 변환하여 원본 pytorch 저장소를 삭제합니다.
quantkit safetensor migtissera/Tess-10.7B-v1.5b --delete-original
모델을 다운로드하고 GGUF(Q5_K)로 변환합니다.
quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-Q5_K.gguf Q5_K
imatrix를 사용하여 모델을 다운로드하고 GGUF로 변환하여 200개의 레이어를 오프로드합니다.
quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-IQ4_XS.gguf IQ4_XS --built-in-imatrix -ngl 200
모델을 다운로드하고 AWQ로 변환합니다.
quantkit awq mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-AWQ
모델을 GPTQ(4비트/그룹 크기 32)로 변환:
quantkit gptq mistral7b -out Mistral-7B-v0.1-GPTQ -b 4 --group-size 32
모델을 exllamav2로 변환:
quantkit exl2 mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-exl2-b8-h8 -b 8 -hb 8
모델을 HQQ로 변환:
quantkit hqq mistralai/Mistral-7B-v0.1 -out Mistral-7B-HQQ-w4-gs64
테스트에서 저에게 도움이 된 내용은 다음과 같습니다. 다양한 크기의 카드에서 가능한 기능에 대한 업데이트가 포함된 PR 또는 이슈를 삭제하세요.
GGUF 변환에는 iMatrix를 제외하고 GPU가 필요하지 않으며 Exllamav2에서는 가장 큰 레이어가 단일 GPU에 맞아야 합니다.
모델 크기 | 퀀트 | VRAM | 성공적인 |
---|---|---|---|
7B | AWQ | 24GB | ✅ |
7B | EXL2 | 24GB | ✅ |
7B | GGUF | 24GB | ✅ |
7B | GPTQ | 24GB | ✅ |
7B | 본사 | 24GB | ✅ |
13B | AWQ | 24GB | ✅ |
13B | EXL2 | 24GB | ✅ |
13B | GGUF | 24GB | ✅ |
13B | GPTQ | 24GB | |
13B | 본사 | 24GB | ? |
34B | AWQ | 24GB | |
34B | EXL2 | 24GB | ✅ |
34B | GGUF | 24GB | ✅ |
34B | GPTQ | 24GB | |
34B | 본사 | 24GB | ? |
70B | AWQ | 24GB | |
70B | EXL2 | 24GB | ✅ |
70B | GGUF | 24GB | ✅ |
70B | GPTQ | 24GB | |
70B | 본사 | 24GB | ? |
아직 베타 버전입니다. Llama.cpp 오프로드는 llama-cpp-conv를 제거하고 적절한 빌드 플래그로 다시 설치하지 않는 한 플랫폼에서 작동하지 않을 수 있습니다. llama-cpp-python 문서를 보고 관련 명령을 따르되 llama-cpp-python을 llama-cpp-conv로 바꾸세요.