DBRX est un grand modèle de langage formé par Databricks et mis à disposition sous licence ouverte. Ce référentiel contient le code minimal et des exemples pour exécuter l'inférence, ainsi qu'une collection de ressources et de liens pour l'utilisation de DBRX.
Un code de modèle de référence peut être trouvé dans ce référentiel à l'adresse modeling_dbrx.py.
Remarque : ce code de modèle est fourni à titre de référence uniquement. Veuillez consulter le référentiel Hugging Face pour connaître la version officielle prise en charge.
DBRX est un modèle mixte d'experts (MoE) avec 132 milliards de paramètres au total et 36 milliards de paramètres en direct. Nous faisons appel à 16 experts, dont 4 sont actifs lors de formations ou d'inférences. DBRX a été pré-entraîné pour les jetons de texte 12T. DBRX a une longueur de contexte de 32 000 jetons.
Les modèles suivants sont open source :
Modèle | Description |
---|---|
Base DBRX | Modèle de base pré-entraîné |
Instruction DBRX | Modèle affiné pour le suivi des instructions |
Le modèle a été formé à l'aide de versions optimisées de nos bibliothèques open source Composer, LLM Foundry, MegaBlocks et Streaming.
Pour le modèle Instruct, nous avons utilisé le format ChatML. Veuillez consulter la carte modèle DBRX Instruct pour plus d’informations à ce sujet.
Pour télécharger les poids et le tokenizer, veuillez d'abord visiter la page DBRX Hugging Face et accepter la licence. Remarque : l'accès au modèle de base nécessite une approbation manuelle.
Nous vous recommandons de disposer d'au moins 320 Go de mémoire pour exécuter le modèle.
Ensuite, exécutez :
pip install -r requirements.txt # Or requirements-gpu.txt to use flash attention on GPU(s)
huggingface-cli login # Add your Hugging Face token in order to access the model
python generate.py # See generate.py to change the prompt and other settings
Pour une utilisation plus avancée, veuillez consulter LLM Foundry (script de chat, script de génération par lots)
Si vous rencontrez des problèmes d'installation de packages, nous vous recommandons d'utiliser notre image Docker : mosaicml/llm-foundry:2.2.1_cu121_flash2-latest
TensorRT-LLM et vLLM peuvent être utilisés pour exécuter une inférence optimisée avec DBRX. Nous avons testé les deux bibliothèques sur les systèmes NVIDIA A100 et H100. Pour exécuter une inférence avec une précision de 16 bits, un minimum de 4 systèmes multi-GPU de 80 Go est requis.
La prise en charge de DBRX est ajoutée à la bibliothèque TensorRT-LLM : en attente de PR
Après la fusion, les instructions pour créer et exécuter les moteurs DBRX TensorRT seront disponibles dans : README
Veuillez consulter la documentation vLLM pour obtenir des instructions sur la façon d'exécuter DBRX avec le moteur vLLM.
Si vous disposez d'un ordinateur portable Apple doté d'une puce de la série M suffisamment puissante, la version quantifiée de DBRX peut être exécutée avec MLX. Consultez les instructions pour exécuter DBRX sur MLX ici.
Si vous possédez un ordinateur portable à puce Apple série M avec au moins 64 Go de RAM, vous pouvez exécuter une version quantifiée de DBRX à l'aide de lama.cpp.
./main -ngl 41 -m ./models/ggml-dbrx-instruct-16x12b-iq1_s.gguf -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt
Pour affiner DBRX avec notre bibliothèque open source LLM Foundry, veuillez consulter les instructions dans notre script de formation (trouvé ici). Nous prenons en charge le réglage fin pour les deux :
Remarque : la prise en charge de LoRA ne peut actuellement pas affiner les experts, car ceux-ci sont fusionnés. Restez à l'écoute pour en savoir plus.
Les cartes modèles peuvent être trouvées à l'adresse suivante :
DBRX est disponible sur la plateforme Databricks via :
D'autres fournisseurs ont récemment ajouté la prise en charge de DBRX :
Les mêmes outils utilisés pour former des modèles MoE de haute qualité tels que DBRX sont disponibles pour les clients Databricks. Veuillez nous contacter sur https://www.databricks.com/company/contact si vous êtes intéressé par une pré-formation, un réglage fin ou le déploiement de vos propres modèles DBRX !
Pour des problèmes avec la sortie du modèle ou une discussion communautaire, veuillez utiliser le forum communautaire Hugging Face (instruction, base)
Pour les problèmes avec LLM Foundry ou l'une des bibliothèques de formation sous-jacentes, veuillez ouvrir un problème sur le référentiel GitHub approprié.
Nos poids et codes de modèle sont sous licence pour les chercheurs et les entités commerciales. La licence Open Source Databricks peut être trouvée sur LICENSE, et notre politique d'utilisation acceptable peut être trouvée ici.