quantkit 다운로드 - quantkit 소스 코드 다운로드

quantkit

기타 소스코드

다운로드

퀀킷

드라마 없이 HuggingFace 모델을 다운로드하고 변환하는 도구입니다.

설치하다

NVIDIA/CUDA GPU가 있는 컴퓨터를 사용하고 있고 AWQ/GPTQ 지원을 원하는 경우:

 pip3 install llm-quantkit[cuda]

그렇지 않으면 기본 설치가 작동합니다.

 pip3 install llm-quantkit

요구사항

장치별 토치가 필요한 경우 먼저 설치하십시오.

이 프로젝트는 torch, awq, exl2, gptq 및 hqq 라이브러리에 따라 다릅니다.
이러한 종속성 중 일부는 아직 Python 3.12를 지원하지 않습니다.
지원되는 Python: 3.8, 3.9, 3.10 및 3.11

용법

 Usage: quantkit [OPTIONS] COMMAND [ARGS]...

Options:
  --help  Show this message and exit.

Commands:
  download    Download model from huggingface.
  safetensor  Download and/or convert a pytorch model to safetensor format.
  awq         Download and/or convert a model to AWQ format.
  exl2        Download and/or convert a model to EXL2 format.
  gguf        Download and/or convert a model to GGUF format.
  gptq        Download and/or convert a model to GPTQ format.
  hqq         Download and/or convert a model to HQQ format.

명령 뒤의 첫 번째 인수는 HF 저장소 ID(mistralai/Mistral-7B-v0.1)이거나 이미 모델 파일이 있는 로컬 디렉터리여야 합니다.

download 명령은 기본적으로 HF 캐시로 다운로드하고 출력 디렉터리에 심볼릭 링크를 생성하지만 모델 파일을 출력 디렉터리에 배치하는 --no-cache 옵션이 있습니다.

AWQ의 기본값은 4비트, 그룹 크기 128, 0점 True입니다.
GPTQ 기본값은 4비트, 그룹 크기 128, 활성화 순서 False입니다.
EXL2의 기본값은 8헤드 비트이지만 기본 비트 전송률은 없습니다.
GGUF는 기본적으로 imatrix가 없지만 기본 퀀트 유형은 없습니다.
HQQ의 기본값은 4비트, 그룹 크기 64, zero_point=True입니다.

예

HF에서 모델을 다운로드하고 HF 캐시를 사용하지 마세요.

 quantkit download teknium/Hermes-Trismegistus-Mistral-7B --no-cache

모델의 safetensor 버전만 다운로드하십시오(토치 및 safetensor가 있는 모델에 유용함).

 quantkit download mistralai/Mistral-7B-v0.1 --no-cache --safetensors-only -out mistral7b

Huggingface 저장소의 특정 개정판에서 다운로드하십시오.

 uantkit download turboderp/TinyLlama-1B-32k-exl2 --branch 6.0bpw --no-cache -out TinyLlama-1B-32k-exl2-b6

모델을 다운로드하고 safetensor로 변환하여 원본 pytorch 저장소를 삭제합니다.

 quantkit safetensor migtissera/Tess-10.7B-v1.5b --delete-original

모델을 다운로드하고 GGUF(Q5_K)로 변환합니다.

 quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-Q5_K.gguf Q5_K

imatrix를 사용하여 모델을 다운로드하고 GGUF로 변환하여 200개의 레이어를 오프로드합니다.

 quantkit gguf TinyLlama/TinyLlama-1.1B-Chat-v1.0 -out TinyLlama-1.1B-IQ4_XS.gguf IQ4_XS --built-in-imatrix -ngl 200

모델을 다운로드하고 AWQ로 변환합니다.

 quantkit awq mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-AWQ

모델을 GPTQ(4비트/그룹 크기 32)로 변환:

 quantkit gptq mistral7b -out Mistral-7B-v0.1-GPTQ -b 4 --group-size 32

모델을 exllamav2로 변환:

 quantkit exl2 mistralai/Mistral-7B-v0.1 -out Mistral-7B-v0.1-exl2-b8-h8 -b 8 -hb 8

모델을 HQQ로 변환:

 quantkit hqq mistralai/Mistral-7B-v0.1 -out Mistral-7B-HQQ-w4-gs64

하드웨어 요구 사항

테스트에서 저에게 도움이 된 내용은 다음과 같습니다. 다양한 크기의 카드에서 가능한 기능에 대한 업데이트가 포함된 PR 또는 이슈를 삭제하세요.
GGUF 변환에는 iMatrix를 제외하고 GPU가 필요하지 않으며 Exllamav2에서는 가장 큰 레이어가 단일 GPU에 맞아야 합니다.

모델 크기	퀀트	VRAM	성공적인
7B	AWQ	24GB	✅
7B	EXL2	24GB	✅
7B	GGUF	24GB	✅
7B	GPTQ	24GB	✅
7B	본사	24GB	✅
13B	AWQ	24GB	✅
13B	EXL2	24GB	✅
13B	GGUF	24GB	✅
13B	GPTQ	24GB
13B	본사	24GB	?
34B	AWQ	24GB
34B	EXL2	24GB	✅
34B	GGUF	24GB	✅
34B	GPTQ	24GB
34B	본사	24GB	?
70B	AWQ	24GB
70B	EXL2	24GB	✅
70B	GGUF	24GB	✅
70B	GPTQ	24GB
70B	본사	24GB	?

메모

아직 베타 버전입니다. Llama.cpp 오프로드는 llama-cpp-conv를 제거하고 적절한 빌드 플래그로 다시 설치하지 않는 한 플랫폼에서 작동하지 않을 수 있습니다. llama-cpp-python 문서를 보고 관련 명령을 따르되 llama-cpp-python을 llama-cpp-conv로 바꾸세요.

확장하다

추가 정보