이 저장소에는 Grok-1 개방형 가중치 모델을 로드하고 실행하기 위한 JAX 예제 코드가 포함되어 있습니다.
체크포인트를 다운로드하고 ckpt-0
디렉터리를 checkpoints
에 배치하세요. 가중치 다운로드를 참조하세요.
그런 다음 실행
pip 설치 -r 요구사항.txt 파이썬 run.py
코드를 테스트합니다.
스크립트는 테스트 입력에 대한 모델의 체크포인트와 샘플을 로드합니다.
모델의 크기(314B 매개변수)가 크기 때문에 예제 코드로 모델을 테스트하려면 GPU 메모리가 충분한 머신이 필요합니다. 이 저장소의 MoE 계층 구현은 효율적이지 않습니다. 모델의 정확성을 검증하기 위해 사용자 정의 커널이 필요하지 않도록 구현이 선택되었습니다.
Grok-1은 현재 다음 사양으로 설계되었습니다.
매개변수: 314B
아키텍처: 8명의 전문가 혼합(MoE)
전문가 활용: 토큰당 전문가 2명 사용
레이어: 64
어텐션 헤드: 쿼리용 48개, 키/값용 8개
임베딩 크기: 6,144
토큰화: 131,072개의 토큰이 포함된 SentencePiece 토크나이저
추가 기능:
RoPE(로터리 임베딩)
활성화 샤딩 및 8비트 양자화 지원
최대 시퀀스 길이(컨텍스트): 8,192개 토큰
토렌트 클라이언트와 이 마그넷 링크를 사용하여 가중치를 다운로드할 수 있습니다.
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
아니면 HuggingFace를 직접 사용하시나요? 바퀴통:
git clone https://github.com/xai-org/grok-1.git && cd grok-1 pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
이 릴리스의 코드 및 관련 Grok-1 가중치는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 라이선스는 이 저장소의 소스 파일과 Grok-1의 모델 가중치에만 적용됩니다.