此儲存庫包含用於載入和運行 Grok-1 開放權重模型的 JAX 範例程式碼。
確保下載檢查點並將ckpt-0
目錄放入checkpoints
- 請參閱下載權重
然後,運行
pip install -r 要求.txt 蟒蛇運行.py
測試程式碼。
該腳本在測試輸入上載入模型中的檢查點和樣本。
由於模型規模較大(314B參數),需要有足夠GPU記憶體的機器才能使用範例程式碼測試模型。此儲存庫中 MoE 層的實現效率不高。選擇該實作是為了避免需要自訂內核來驗證模型的正確性。
Grok-1 目前設計有以下規格:
參數: 314B
架構: 8 位專家的組合 (MoE)
專家使用率:每個代幣使用 2 位專家
層數: 64
注意頭: 48 個用於查詢,8 個用於鍵/值
嵌入大小: 6,144
標記化:具有 131,072 個標記的 SentencePiece 標記產生器
附加功能:
旋轉嵌入 (RoPE)
支持活化分片和8位量化
最大序列長度(上下文): 8,192 個標記
您可以使用 torrent 用戶端和此磁力連結下載權重:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
或直接使用 HuggingFace ?中心:
git clone https://github.com/xai-org/grok-1.git && cd grok-1 pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
此版本中的程式碼和相關 Grok-1 權重已根據 Apache 2.0 授權取得許可。該許可證僅適用於該儲存庫中的原始檔案和 Grok-1 的模型權重。