Este repositorio contiene código de ejemplo JAX para cargar y ejecutar el modelo de pesos abiertos Grok-1.
Asegúrese de descargar el punto de control y colocar el directorio ckpt-0
en checkpoints
; consulte Descarga de los pesos.
Entonces, corre
instalación de pip -r requisitos.txt ejecutar python.py
para probar el código.
El script carga el punto de control y muestras del modelo en una entrada de prueba.
Debido al gran tamaño del modelo (parámetros 314B), se requiere una máquina con suficiente memoria GPU para probar el modelo con el código de ejemplo. La implementación de la capa MoE en este repositorio no es eficiente. La implementación se eligió para evitar la necesidad de núcleos personalizados para validar la corrección del modelo.
Grok-1 está actualmente diseñado con las siguientes especificaciones:
Parámetros: 314B
Arquitectura: Mezcla de 8 Expertos (MoE)
Utilización de expertos: 2 expertos utilizados por token
Capas: 64
Cabezales de atención: 48 para consultas, 8 para claves/valores
Tamaño de incrustación: 6,144
Tokenización: tokenizador SentencePieza con 131.072 tokens
Características adicionales:
Incrustaciones rotativas (RoPE)
Admite fragmentación de activación y cuantificación de 8 bits
Longitud máxima de secuencia (contexto): 8192 tokens
Puede descargar los pesos usando un cliente torrent y este enlace magnético:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
¿O directamente usando HuggingFace? Centro:
git clone https://github.com/xai-org/grok-1.git && cd grok-1 pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
El código y los pesos Grok-1 asociados en esta versión tienen la licencia Apache 2.0. La licencia solo se aplica a los archivos fuente de este repositorio y los pesos del modelo de Grok-1.