Ce référentiel contient un exemple de code JAX pour charger et exécuter le modèle de poids ouverts Grok-1.
Assurez-vous de télécharger le point de contrôle et de placer le répertoire ckpt-0
dans checkpoints
- voir Télécharger les poids
Ensuite, courez
pip install -r exigences.txt python run.py
pour tester le code.
Le script charge le point de contrôle et les échantillons du modèle sur une entrée de test.
En raison de la grande taille du modèle (paramètres 314B), une machine dotée de suffisamment de mémoire GPU est nécessaire pour tester le modèle avec l'exemple de code. L'implémentation de la couche MoE dans ce référentiel n'est pas efficace. L'implémentation a été choisie pour éviter d'avoir besoin de noyaux personnalisés pour valider l'exactitude du modèle.
Grok-1 est actuellement conçu avec les spécifications suivantes :
Paramètres : 314B
Architecture : mélange de 8 experts (MoE)
Utilisation des experts : 2 experts utilisés par jeton
Couches : 64
Têtes d'attention : 48 pour les requêtes, 8 pour les clés/valeurs
Taille d'intégration : 6 144
Tokenisation : tokenizer SentencePièce avec 131 072 jetons
Caractéristiques supplémentaires :
Encastrements rotatifs (RoPE)
Prend en charge le partitionnement d'activation et la quantification 8 bits
Longueur maximale de la séquence (contexte) : 8 192 jetons
Vous pouvez télécharger les poids en utilisant un client torrent et ce lien magnétique :
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
ou directement en utilisant HuggingFace ? Moyeu:
git clone https://github.com/xai-org/grok-1.git && cd grok-1 pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
Le code et les poids Grok-1 associés dans cette version sont sous licence Apache 2.0. La licence s'applique uniquement aux fichiers sources de ce référentiel et aux poids de modèle de Grok-1.