Этот репозиторий содержит пример кода JAX для загрузки и запуска модели открытых весов Grok-1.
Обязательно загрузите контрольную точку и поместите каталог ckpt-0
в checkpoints
— см. Загрузка весов.
Затем запустите
pip install -r требования.txt python run.py
чтобы протестировать код.
Скрипт загружает контрольную точку и образцы из модели на тестовые входные данные.
Из-за большого размера модели (параметры 314B) для тестирования модели с помощью примера кода требуется машина с достаточным объемом памяти графического процессора. Реализация уровня MoE в этом репозитории неэффективна. Реализация была выбрана, чтобы избежать необходимости использования пользовательских ядер для проверки правильности модели.
В настоящее время Grok-1 разрабатывается со следующими характеристиками:
Параметры: 314Б
Архитектура: смесь из 8 экспертов (МО)
Использование экспертов: на каждый токен используется 2 эксперта.
Слоев: 64
Внимание: 48 для запросов, 8 для ключей/значений.
Размер встраивания: 6,144
Токенизация: токенизатор SentencePiece со 131 072 токенами.
Дополнительные возможности:
Поворотные закладные (RoPE)
Поддерживает сегментирование активации и 8-битное квантование.
Максимальная длина последовательности (контекст): 8192 токена.
Скачать гири можно с помощью торрент-клиента и по этой магнитной ссылке:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
или напрямую с помощью HuggingFace? Центр:
git clone https://github.com/xai-org/grok-1.git && cd grok-1 pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
Код и связанные с ним веса Grok-1 в этом выпуске лицензируются по лицензии Apache 2.0. Лицензия распространяется только на исходные файлы в этом репозитории и модели Grok-1.