该存储库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。
确保下载检查点并将ckpt-0
目录放入checkpoints
- 请参阅下载权重
然后,运行
pip install -r 要求.txt 蟒蛇运行.py
测试代码。
该脚本在测试输入上加载模型中的检查点和样本。
由于模型规模较大(314B参数),需要有足够GPU内存的机器才能使用示例代码测试模型。该存储库中 MoE 层的实现效率不高。选择该实现是为了避免需要自定义内核来验证模型的正确性。
Grok-1 目前设计有以下规格:
参数: 314B
架构: 8 名专家的组合 (MoE)
专家利用率:每个代币使用 2 名专家
层数: 64
注意头: 48 个用于查询,8 个用于键/值
嵌入大小: 6,144
标记化:具有 131,072 个标记的 SentencePiece 标记生成器
附加功能:
旋转嵌入 (RoPE)
支持激活分片和8位量化
最大序列长度(上下文): 8,192 个标记
您可以使用 torrent 客户端和此磁力链接下载权重:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
或者直接使用 HuggingFace ?中心:
git clone https://github.com/xai-org/grok-1.git && cd grok-1 pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
此版本中的代码和相关 Grok-1 权重已根据 Apache 2.0 许可证获得许可。该许可证仅适用于该存储库中的源文件和 Grok-1 的模型权重。